rdd

投稿关注

文章 7 浏览 16

如何更改 RDD/Spark Dataframe 的结构？

从这种 rdd/spark 数据框：日期 Tokyo New York 01/01 1 2 02/01 3 2 03/01 4 5 到下面这种形式的相同数据的最简单的过程是什么？城市日期值东京…

梓梦 2025-01-12 22:22:21 0 0

无法访问 RDD foreach 函数内的 scala 值/变量（空）

我有一个 Spark 结构化流作业，需要按照以下代码使用 forEachBatch 函数内的 rdd.forEach： val tableName = "ddb_table" df .writeStream .foreachBa…

萤火眠眠 2025-01-12 16:54:19 0 0

执行组聚合以填充 RDD 中的字段值

我必须编写一段代码，第一步将文本文件发送到一个 RDD，然后根据 VIN 填充空单元格。 CSV 文件是： '1,I,VXIO456XLBB630221,Nissan,Altima,2003,2002-…

傲鸠 2025-01-12 14:23:20 0 0

按两个值对 rdd 进行排序并获取每组前 10 个

假设我在 pyspark 中有以下 RDD，其中每一行都是一个列表： [foo, apple] [foo, orange] [foo, apple] [foo, apple] [foo, grape] [foo, grape] [foo,…

笑咖 2025-01-12 13:34:19 0 0

PySpark - RDD 包含指向内存中浮点值的整数列，无法创建 DataFrame

我在尝试使用 RDD 创建 PySpark DataFrame 时遇到了一个奇怪的错误。通常，只要 schema 与 RDD 兼容，spark.createDataFrame(df.rdd, new_schema) 就…

赢得她心 2025-01-11 18:56:55 0 0

如何在 Spark RDD 中使用 Option case 类处理零除数情况

我试图在 Scala Spark 中计算百分比时使用 Option case 类来处理零分母。 RDD 的集合如下所示： val counties = Array("New+York", "Bronx","Kings","…

猫瑾少女 2025-01-10 10:48:07 1 0

flatMap (word, (song, another_song)) 到 rdd

我有一个具有以下结构的 rdd： [('song1', 'artist1', ['word1', 'word2', 'word3', 'word1']), ('song2', 'artist2', ['word1', 'word3', 'word1'])]…

々眼睛长脚气 2025-01-10 00:38:06 2 0

如何使用 MlLib Pyspark 对每个组进行分组和执行数据缩放？

我有一个数据集，就像下面的示例所示，我试图对给定符号的所有行进行分组，并对每个组执行标准缩放，以便最终我的所有数据都按组缩放。我如何使用 MlL…

贪了杯 2025-01-09 07:48:01 1 0

使用 createOrReplaceTempView 替换未按预期工作的临时视图

我有一个与此类似的数据集 {"name": "Michael", "age": "30", "producta1": "blah1", "producta3": "blah2"} {"name": "Michael", "age": "31", "prod…

巷子口的你 2025-01-09 07:02:15 1 0

如何用java实现SparkSQL dataframe添加自增序号列？

用spark分页查询数据，普通的sql()的不支持分页的sql语句在网上查资料说可以增加一个序列实现但是基本都是scala语言 // 在原Schema信息的基础上添加…

晨光如昨 2022-09-11 17:51:01 21 0

spark 生成RDD的运行机制

生成RDD其中一种方式Parallelize，运行原理是什么，是在action时候，把数据通过网络传递给worker节点的内存中吗，textfile可以理解，各个worker分布读…

我很OK 2022-09-03 12:52:07 22 0

Spark中RDD的查询操作有哪些？

请问RDD的查询操作用什么？我有个RDD[Long，Array[Long]]，我想根据Long查询出对应的Array[Long]该怎么做？我尝试了lookup()操作，直接报错：key值太…

夜空下最亮的亮点 2022-09-02 13:40:15 18 0

Spark RDD的 map操作什么时候可以省略 "=>"?

请问这个RDD的映射操作大概是什么意思? map里一般不是需要 => 左值还有右值吗？…

半山落雨半山空 2022-09-02 09:57:54 27 0

获得RDD[(VertexId, Array[VertexId])]中某个VertexId对应的Array[VertexId]

请问RDD的查询操作用什么？在Spark中我计算得到一个RDD[(VertexId, Array[VertexId])]，我要获得其中某个VertexId对应的Array[VertexId]大概要怎么…

凉风有信 2022-09-02 09:44:22 41 0

如何把Spark RDD中的内容按行打印出来?

请问我想把最后wordcounts里的内容按行打印出来要怎样编写代码？，向下面这样：means 1under 2this 3... Hadoop 流行的一个通用的数据流模式是 MapRe…

梦回旧景 2022-09-02 09:32:50 17 0

共 1 页
1

友情链接

文江博客

rdd

如何更改 RDD/Spark Dataframe 的结构？

无法访问 RDD foreach 函数内的 scala 值/变量（空）

执行组聚合以填充 RDD 中的字段值

按两个值对 rdd 进行排序并获取每组前 10 个

PySpark - RDD 包含指向内存中浮点值的整数列，无法创建 DataFrame

如何在 Spark RDD 中使用 Option case 类处理零除数情况

flatMap (word, (song, another_song)) 到 rdd

如何使用 MlLib Pyspark 对每个组进行分组和执行数据缩放？

使用 createOrReplaceTempView 替换未按预期工作的临时视图

如何用java实现SparkSQL dataframe添加自增序号列？

spark 生成RDD的运行机制

Spark中RDD的查询操作有哪些？

Spark RDD的 map操作什么时候可以省略 "=>"?

获得RDD[(VertexId, Array[VertexId])]中某个VertexId对应的Array[VertexId]

如何把Spark RDD中的内容按行打印出来?

热门标签

推荐作者

燃烧我的卡路李先生

qq_2gSKZM

∞梦里开花

qq_IklFPL

迷途知返

深海不蓝

友情链接