rdd

rdd

文章 7 浏览 16

如何更改 RDD/Spark Dataframe 的结构?

从这种 rdd/spark 数据框: 日期 Tokyo New York 01/01 1 2 02/01 3 2 03/01 4 5 到下面这种形式的相同数据的最简单的过程是什么? 城市 日期 值 东京…

梓梦 2025-01-12 22:22:21 0 0

无法访问 RDD foreach 函数内的 scala 值/变量(空)

我有一个 Spark 结构化流作业,需要按照以下代码使用 forEachBatch 函数内的 rdd.forEach: val tableName = "ddb_table" df .writeStream .foreachBa…

萤火眠眠 2025-01-12 16:54:19 0 0

执行组聚合以填充 RDD 中的字段值

我必须编写一段代码,第一步将文本文件发送到一个 RDD,然后根据 VIN 填充空单元格。 CSV 文件是: '1,I,VXIO456XLBB630221,Nissan,Altima,2003,2002-…

傲鸠 2025-01-12 14:23:20 0 0

按两个值对 rdd 进行排序并获取每组前 10 个

假设我在 pyspark 中有以下 RDD,其中每一行都是一个列表: [foo, apple] [foo, orange] [foo, apple] [foo, apple] [foo, grape] [foo, grape] [foo,…

笑咖 2025-01-12 13:34:19 0 0

PySpark - RDD 包含指向内存中浮点值的整数列,无法创建 DataFrame

我在尝试使用 RDD 创建 PySpark DataFrame 时遇到了一个奇怪的错误。通常,只要 schema 与 RDD 兼容,spark.createDataFrame(df.rdd, new_schema) 就…

赢得她心 2025-01-11 18:56:55 0 0

如何在 Spark RDD 中使用 Option case 类处理零除数情况

我试图在 Scala Spark 中计算百分比时使用 Option case 类来处理零分母。 RDD 的集合如下所示: val counties = Array("New+York", "Bronx","Kings","…

猫瑾少女 2025-01-10 10:48:07 1 0

flatMap (word, (song, another_song)) 到 rdd

我有一个具有以下结构的 rdd: [('song1', 'artist1', ['word1', 'word2', 'word3', 'word1']), ('song2', 'artist2', ['word1', 'word3', 'word1'])]…

々眼睛长脚气 2025-01-10 00:38:06 2 0

如何使用 MlLib Pyspark 对每个组进行分组和执行数据缩放?

我有一个数据集,就像下面的示例所示,我试图对给定符号的所有行进行分组,并对每个组执行标准缩放,以便最终我的所有数据都按组缩放。我如何使用 MlL…

贪了杯 2025-01-09 07:48:01 1 0

使用 createOrReplaceTempView 替换未按预期工作的临时视图

我有一个与此类似的数据集 {"name": "Michael", "age": "30", "producta1": "blah1", "producta3": "blah2"} {"name": "Michael", "age": "31", "prod…

巷子口的你 2025-01-09 07:02:15 1 0

如何用java实现SparkSQL dataframe添加自增序号列?

用spark分页查询数据,普通的sql()的不支持分页的sql语句在网上查资料说可以增加一个序列实现但是基本都是scala语言 // 在原Schema信息的基础上添加…

晨光如昨 2022-09-11 17:51:01 21 0

spark 生成RDD的运行机制

生成RDD其中一种方式Parallelize,运行原理是什么,是在action时候,把数据通过网络传递给worker节点的内存中吗,textfile可以理解,各个worker分布读…

我很OK 2022-09-03 12:52:07 22 0

Spark中RDD的查询操作有哪些?

请问RDD的查询操作用什么? 我有个RDD[Long,Array[Long]],我想根据Long查询出对应的Array[Long]该怎么做?我尝试了lookup()操作,直接报错:key值太…

夜空下最亮的亮点 2022-09-02 13:40:15 18 0

Spark RDD的 map操作什么时候可以省略 "=>"?

请问这个RDD的映射操作大概是什么意思? map里一般不是需要 => 左值 还有右值吗?…

半山落雨半山空 2022-09-02 09:57:54 27 0

获得RDD[(VertexId, Array[VertexId])]中某个VertexId对应的Array[VertexId]

请问RDD的查询操作用什么? 在Spark中我计算得到一个RDD[(VertexId, Array[VertexId])], 我要获得其中某个VertexId对应的Array[VertexId]大概要怎么…

凉风有信 2022-09-02 09:44:22 41 0

如何把Spark RDD中的内容按行打印出来?

请问我想把最后wordcounts里的内容按行打印出来要怎样编写代码?,向下面这样:means 1under 2this 3... Hadoop 流行的一个通用的数据流模式是 MapRe…

梦回旧景 2022-09-02 09:32:50 17 0
更多

推荐作者

qq_2gSKZM

文章 0 评论 0

∞梦里开花

文章 0 评论 0

qq_IklFPL

文章 0 评论 0

迷途知返

文章 0 评论 0

深海不蓝

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文