如何更改 RDD/Spark Dataframe 的结构?
从这种 rdd/spark 数据框:
日期 | Tokyo | New York |
---|---|---|
01/01 | 1 | 2 |
02/01 | 3 | 2 |
03/01 | 4 | 5 |
到下面这种形式的相同数据的最简单的过程是什么?
城市 | 日期 | 值 |
---|---|---|
东京 | 01/01 | 1 |
纽约 | 01/01 | 2 |
东京 | 02/01 | 3 |
纽约 | 02/01 | 2 |
东京 | 03/01 | 4 |
纽约 | 03/01 | 5 |
What is the easiest procedure to go from this kind of rdd/spark dataframe:
date | Tokyo | New York |
---|---|---|
01/01 | 1 | 2 |
02/01 | 3 | 2 |
03/01 | 4 | 5 |
to the same data in this form below?
city | date | value |
---|---|---|
Tokyo | 01/01 | 1 |
New York | 01/01 | 2 |
Tokyo | 02/01 | 3 |
New York | 02/01 | 2 |
Tokyo | 03/01 | 4 |
New York | 03/01 | 5 |
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
我将使用
create_map
和explode
等函数通过pyspark sql
解决这个问题,如下 -
输出:
I would solve this with
pyspark sql
using functions likecreate_map
andexplode
As below -
Output :
有一个更简单的解决方案,使用 stack
< code>apache-spark-sql
pyspark
There is a much simpler solution, using stack
apache-spark-sql
pyspark