计算 PySpark 中给定另一列的唯一列值
我正在尝试计算date
pyspark中的每个唯一id
。
+-------------------+----------+
| Date| ID|
+-------------------+----------+
|2022-03-19 00:00:00| Ax3838J|
|2022-03-11 00:00:00| Ax3838J|
|2021-11-01 00:00:00| Ax3838J|
|2021-10-27 00:00:00| Ax3838J|
|2021-10-25 00:00:00| Bz3838J|
|2021-10-22 00:00:00| Bz3838J|
|2021-10-18 00:00:00| Bz3838J|
|2021-10-15 00:00:00| Rr7422u|
|2021-09-22 00:00:00| Rr742uL|
+-------------------+----------+
当我尝试的时候,
df.groupBy('ID').count('Date').show()
我发现了错误: _api()采用1个位置参数,但给出了2个
这是有道理的,但是我不确定在Pyspark中要计算的其他技术是什么。
我如何计数唯一的日期
值以下:
df.groupBy('ID').count().show()
预期输出:
+-------------------+----------+
| Date| ID|
+-------------------+----------+
| 4| Ax3838J|
| 3| Bz3838J|
| 2| Rr742uL|
+-------------------+----------+
I am trying to count Date
for each unique ID
in Pyspark.
+-------------------+----------+
| Date| ID|
+-------------------+----------+
|2022-03-19 00:00:00| Ax3838J|
|2022-03-11 00:00:00| Ax3838J|
|2021-11-01 00:00:00| Ax3838J|
|2021-10-27 00:00:00| Ax3838J|
|2021-10-25 00:00:00| Bz3838J|
|2021-10-22 00:00:00| Bz3838J|
|2021-10-18 00:00:00| Bz3838J|
|2021-10-15 00:00:00| Rr7422u|
|2021-09-22 00:00:00| Rr742uL|
+-------------------+----------+
When I tried
df.groupBy('ID').count('Date').show()
I got the error:_api() takes 1 positional argument but 2 were given
which makes sense, but I am not sure what are the other techniques exits to count so in PySpark.
How do I count unique Date
values with this:
df.groupBy('ID').count().show()
Expected output:
+-------------------+----------+
| Date| ID|
+-------------------+----------+
| 4| Ax3838J|
| 3| Bz3838J|
| 2| Rr742uL|
+-------------------+----------+
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
请找到预期输出的工作版本。我正在Spark-3上运行代码。
请让我知道您是否需要任何帮助,如果它解决了您的目的,请接受
Please find the working version of expected output. I am running code on spark-3.
Please let me know if you need any help and if its solve your purpose please accept it
尝试以下操作:
try this: