大数据

大数据

文章 168 浏览 845

电商网站一般怎么记录或者提取用户行为数据做大数据分析?

一:可从前段埋点、后端日志两个角度描述二:其实也有看过如 GrowingIO的第三方方案,不过涉及用户数据还是不安全三:如果有现有的 GitHub项目方案就…

洋洋洒洒 2022-09-05 06:19:49 21 0

两千万条结构化数据怎么进行数据分析

准备进行时间序列分析 groupby分析 以及趋势预测 用Python dataframe够用吗?…

不知在何时 2022-09-05 03:34:19 15 0

关于使用Hive的udaf导致的报错

最近在一家公司做大数据方面的实习,今天有一个需求,是需要统计在某个时间段内,用户的服务请求次数,即最后得到一个kv结果,类似于&ltuserId, int&…

听你说爱我 2022-09-05 01:31:55 18 0

ElasticSearch5.2.3无法形成集群?

三台linux虚拟机分别是 10.8.36.103 10.8.36.103 10.8.36.103 三台已经启动正常,elasticsearch-head也已经启动正常,三台单独连接正常,但是无法形成集…

蝶舞 2022-09-04 23:05:31 13 0

外网页面大量显示内网图片,何种方法效率高?

服务器为内网,映射出一外网地址,上有一web程序,展示内网其他服务器的图片。当前的做法是使用php的file_get_contents方法下载图片,然后利用nginx将…

很糊涂小朋友 2022-09-04 22:49:15 12 0

pandas 如何对上千万数据分组“快速”取第一行和最后一行?

我希望取pandas分组后每个分组的第一行和最后一行,目前的做法是遍历分组for name,group in xxx:然后 group.iloc[0] group.iloc[-1],但这对上千万的…

黑寡妇 2022-09-04 22:21:14 18 0

EMR上运行spark程序出现内存分配报错

spark小白求指教:最近在做相关的作业,spark的程序弄成jar包,上传到EMR上跑之后,程序运行8秒就失败了,报错信息: 17/05/06 13:44:12 INFO client…

镜花水月 2022-09-04 21:40:32 16 0

Scala中单独的"(int x)"(就是一对括号里加int类型参数)是什么个意思?

今天写scala的时候发现一个有趣的问题,就是我在使用了list中的几个方法时,例如take()和drop()方法,在这些方法之后添加了一个(int x)之后(这里的x…

氛圍 2022-09-04 19:49:39 20 0

大文本数据合并问题思路

背景: 我有三个csv文件,分别如下: afile: userid, username, ....bfile: postid, userid, postname, ...cfile: postid, postnum, ... afile = 10G…

枯寂 2022-09-04 18:24:50 19 0

脱敏数据运算问题?

求教数据脱敏后如何进行运算?简单的说,是数据脱敏后的数据是否可以进行运算?只是普通的偏移(x+233)是否可行?例如:我需要求平面坐标系内两个点…

妖妓 2022-09-04 14:57:36 16 0

hadoop数据查找

使用hadoop查找文件中是否含有某些字符串,也就是要查找出set(string)中每个string对应的那一行,每条数据都不重复,请问怎么可以快速的找到呢?我写…

清醇 2022-09-04 14:36:24 22 0

怎么把ambari下的spark版本升级?我是本地源安装的ambari和集群。

。能不能把本地源的spark安装包卸载了,替换搞版本的sparkbendiyuan 这下面的rpm包 怎么替换spark2.0的rpm包? 这些是ambari里带的组件的版本 spark…

初懵 2022-09-04 13:52:54 14 0

php大数据画图解决方案

php大数据画图 大概是这样的数据量 大概有几十万个点或者更多,要绘制成下面图片这样的形式,在网页上展示。 能用什么技术解决? …

梦里寻她 2022-09-04 13:36:25 20 0

storm的BaseBasicBolt什么时候会自动重启?

我的Kafka在客户端每次上线都会有日志,我看我的一个storm程序中使用了producer,而且这个程序我就启动了一次然后一直跑,如果没有问题的话,日志中…

岛歌少女 2022-09-04 13:29:06 19 0

spark yarn cluster 模式提交任务一直报错,求教

1、用 yarn cluster 模式提交任务一直报这个错误 错误: 找不到或无法加载主类 org.apache.spark.deploy.yarn.ApplicationMasterspark版本 2.0.2 hadoo…

甜妞爱困 2022-09-04 12:51:50 21 0
更多

推荐作者

lorenzathorton8

文章 0 评论 0

Zero

文章 0 评论 0

萧瑟寒风

文章 0 评论 0

mylayout

文章 0 评论 0

tkewei

文章 0 评论 0

17818769742

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文