第 4 页 - Spark - 文江博客

投稿关注

Spark

文章 222 浏览 116

spark如何计算前后两条数据（kafka数据源）的差值？

数据源是kafka，有一个字段是时间戳，我们想要计算前后两条数据的时间戳的差值，然后新增一个字段存储这个值再发出去，要怎么做呢？我查了一下好像要r…

寒冷纷飞旳雪 2022-09-11 17:03:13 19 0

为什么Spark只会惰性计算RDD？

为什么Spark只会惰性计算RDD？为什么只有第一次在一个行动操作中用到时，才会真正计算？…

海之角 2022-09-11 15:07:43 20 0

Spark Dataframe join中用到Scala Seq提示没有序列化？

我在java spark-sql中想使用dataframe的多字段join功能，看了一下该接口如果要多字段join的话需要传入一个usingColumns. public org.apache.spark.sq…

挽手叙旧 2022-09-11 15:04:33 31 0

请问pySpark中怎么序列化一个对象集合为RDD？

请问pySpark中怎么序列化一个对象集合为RDD？例如: 这种最简单的操作class test : data = 1 def __init__(self): self.property=0 def test2(self):…

情话墙 2022-09-11 14:47:53 17 0

spark工程里面有关配置文件的使用情况

问题描述 sparksql项目，sql脚本是放在resource/sql/文件在下面(业务不同,脚本有点多);本地编写代码加载sql脚本使用this.getClass.getResource().get…

在梵高的星空下 2022-09-07 23:38:22 29 0

spark streaming 运行 8 个小时左右挂掉，请问是问什么呢

报错日志 com.slhan.service.BusinessService 的 341 行是获取广播变量的值 18/09/08 13:50:02 ERROR scheduler.JobScheduler: Error running job st…

你是年少的欢喜 2022-09-07 22:19:39 31 0

调用Spark的程序可以直接以Java -jar方式启动吗？

我写了一个spark的worldcount程序，使用local模式在eclipse里可以调试通过，也可以通过maven打包后java -jar命令运行： SparkConf sparkConf = new S…

醉酒的小男人 2022-09-07 20:23:01 30 0

spark中两份很大的数据如何能避免join时的shuffle

目的：在spark中有两份很大的数据需要join，两份输入数据都含有userid这个字段，现在需要根据userid关联，我希望能避免shuffle。已完成：我预先对两…

很酷不放纵 2022-09-07 19:59:04 31 0

使用spark或者hadoop删除重复的双向关系数据

我有一批数据（100亿）如下， ID FROM TO 1 A B 2 A C 3 B A 4 C A 删除重复的双向关系数据如下 ID FROM TO 1 A B 2 A C 1、因为数据量太大，bloomfi…

寂寞清仓 2022-09-07 19:52:06 26 0

spark sql 解析嵌套对象数组的json

1.现在有json数据如下 {"id":11,"data":[{"package":"com.browser1","activetime":60000},{"package":"com.browser6","activetime":1205000},{"packa…

忘羡 2022-09-07 16:50:40 29 0

为什么会在pyspark在RDD中调用python第三方库失败？

问题描述 Hi, 我在公司线上运行pyspark时调用jieba分词，发现可以成功import，但是在RDD中调用分词函数时却提示没有 module jieba，在本地虚拟机…

筱武穆 2022-09-07 16:37:24 21 0

各位大大帮我看看我这种处理方式是否合理【大量Json文件批量读取解析导入elasticsearch】。

业务场景需要把大量的json文件，读取并重新解析导入到elasticsearch，json文件是保存在不同的日期文件夹下的，单个文件夹大小差不多80g，文件下json…

痴骨ら 2022-09-07 16:09:34 27 0

AWS EC2 - Initial job has not accepted any resources

Slaves had registered, but cannot pass work to slave.(Standalone) If I open all of the Inbound TCP port, it can work. But I cannot do it, b…

你是我的挚爱i 2022-09-07 11:43:21 57 0

createDirectStream.foreachRDD调用外部对象出错

如下图： def update_model(rdd),调用外部声明的mixture_model会出现如下错误：直接在update_model中声明 ·mixture_model·是没有问题的，但是每次fo…

戒ㄋ 2022-09-07 11:36:04 36 0

win10下安装pyspark后报错NativeCodeLoader:62

根据这个链接https://blog.csdn.net/w417950... 配置了spark的环境，但是启动时都会报错：搜索了一下没找到能解决我的问题的方法还是做伸手党了。。…

画中仙 2022-09-07 11:34:14 19 0

共 15 页
上一页
2
3
4
5
6
下一页

友情链接

文江博客

Spark

spark如何计算前后两条数据（kafka数据源）的差值？

为什么Spark只会惰性计算RDD？

Spark Dataframe join中用到Scala Seq提示没有序列化？

请问pySpark中怎么序列化一个对象集合为RDD？

spark工程里面有关配置文件的使用情况

spark streaming 运行 8 个小时左右挂掉，请问是问什么呢

调用Spark的程序可以直接以Java -jar方式启动吗？

spark中两份很大的数据如何能避免join时的shuffle

使用spark或者hadoop删除重复的双向关系数据

spark sql 解析嵌套对象数组的json

为什么会在pyspark在RDD中调用python第三方库失败？

各位大大帮我看看我这种处理方式是否合理【大量Json文件批量读取解析导入elasticsearch】。

AWS EC2 - Initial job has not accepted any resources

createDirectStream.foreachRDD调用外部对象出错

win10下安装pyspark后报错NativeCodeLoader:62

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接