Spark

Spark

文章 222 浏览 116

spark如何计算前后两条数据(kafka数据源)的差值?

数据源是kafka,有一个字段是时间戳,我们想要计算前后两条数据的时间戳的差值,然后新增一个字段存储这个值再发出去,要怎么做呢?我查了一下好像要r…

寒冷纷飞旳雪 2022-09-11 17:03:13 19 0

为什么Spark只会惰性计算RDD?

为什么Spark只会惰性计算RDD?为什么只有第一次在一个行动操作中用到时,才会真正计算?…

海之角 2022-09-11 15:07:43 20 0

Spark Dataframe join中用到Scala Seq提示没有序列化?

我在java spark-sql中想使用dataframe的多字段join功能,看了一下该接口如果要多字段join的话需要传入一个usingColumns. public org.apache.spark.sq…

挽手叙旧 2022-09-11 15:04:33 31 0

请问pySpark中怎么序列化一个对象集合为RDD?

请问pySpark中怎么序列化一个对象集合为RDD? 例如: 这种最简单的操作class test : data = 1 def __init__(self): self.property=0 def test2(self):…

情话墙 2022-09-11 14:47:53 17 0

spark工程里面有关配置文件的使用情况

问题描述 sparksql项目,sql脚本是放在resource/sql/文件在下面(业务不同,脚本有点多);本地编写代码加载sql脚本使用this.getClass.getResource().get…

在梵高的星空下 2022-09-07 23:38:22 29 0

spark streaming 运行 8 个小时左右挂掉,请问是问什么呢

报错日志 com.slhan.service.BusinessService 的 341 行是获取广播变量的值 18/09/08 13:50:02 ERROR scheduler.JobScheduler: Error running job st…

你是年少的欢喜 2022-09-07 22:19:39 31 0

调用Spark的程序可以直接以Java -jar方式启动吗?

我写了一个spark的worldcount程序,使用local模式在eclipse里可以调试通过,也可以通过maven打包后java -jar命令运行: SparkConf sparkConf = new S…

醉酒的小男人 2022-09-07 20:23:01 30 0

spark中两份很大的数据如何能避免join时的shuffle

目的:在spark中有两份很大的数据需要join,两份输入数据都含有userid这个字段,现在需要根据userid关联,我希望能避免shuffle。 已完成:我预先对两…

很酷不放纵 2022-09-07 19:59:04 31 0

使用spark或者hadoop删除重复的双向关系数据

我有一批数据(100亿)如下, ID FROM TO 1 A B 2 A C 3 B A 4 C A 删除重复的双向关系数据如下 ID FROM TO 1 A B 2 A C 1、因为数据量太大,bloomfi…

寂寞清仓 2022-09-07 19:52:06 26 0

spark sql 解析嵌套对象数组的json

1.现在有json数据如下 {"id":11,"data":[{"package":"com.browser1","activetime":60000},{"package":"com.browser6","activetime":1205000},{"packa…

忘羡 2022-09-07 16:50:40 29 0

为什么会在pyspark在RDD中调用python第三方库失败?

问题描述 Hi, 我在公司线上运行pyspark时调用jieba分词, 发现可以成功import, 但是在RDD中调用分词函数时却提示没有 module jieba, 在本地虚拟机…

筱武穆 2022-09-07 16:37:24 21 0

各位大大帮我看看我这种处理方式是否合理【大量Json文件批量读取解析导入elasticsearch】。

业务场景 需要把大量的json文件,读取并重新解析导入到elasticsearch,json文件是保存在不同的日期文件夹下的,单个文件夹大小差不多80g,文件下json…

痴骨ら 2022-09-07 16:09:34 27 0

AWS EC2 - Initial job has not accepted any resources

Slaves had registered, but cannot pass work to slave.(Standalone) If I open all of the Inbound TCP port, it can work. But I cannot do it, b…

你是我的挚爱i 2022-09-07 11:43:21 57 0

createDirectStream.foreachRDD调用外部对象出错

如下图: def update_model(rdd),调用外部声明的mixture_model会出现如下错误: 直接在update_model中声明 ·mixture_model·是没有问题的,但是每次fo…

戒ㄋ 2022-09-07 11:36:04 36 0

win10下安装pyspark后报错NativeCodeLoader:62

根据这个链接https://blog.csdn.net/w417950... 配置了spark的环境,但是启动时都会报错: 搜索了一下没找到能解决我的问题的方法还是做伸手党了。。…

画中仙 2022-09-07 11:34:14 19 0
更多

推荐作者

已经忘了多久

文章 0 评论 0

15867725375

文章 0 评论 0

LonelySnow

文章 0 评论 0

走过海棠暮

文章 0 评论 0

轻许诺言

文章 0 评论 0

信馬由缰

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文