PySpark groupBy 和多列聚合函数
我使用 Spark Dataframe 并尝试使用 groupby 创建一个带有聚合的新表: 我的数据示例:
我尝试了此代码 data.groupBy("id1").agg(countDistinct("id2").alias("id2"), sum("value").alias("value"))
有人可以帮忙吗?谢谢
I work with a spark Dataframe and I try to create a new table with aggregation using groupby :
My data example :
and this is the desired result :
I tried this code data.groupBy("id1").agg(countDistinct("id2").alias("id2"), sum("value").alias("value"))
Anyone can help please ? Thank you
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
尝试使用以下代码 -
聚合数据 -
输出 -
Try using below code -
Aggregated Data -
Output -
以下是如何使用 PySpark 对多列进行 groupBy 的解决方案:
Here's a solution of how to groupBy with multiple columns using PySpark: