按ID进行汇总,计数日期字段,并在时间字段上汇总
输入数据帧:
ID | DATE | PERSONAL_AUX | OUTBOUND_AUX |
---|---|---|---|
1 | 1/3/2022 | 0:09:00 | 0:00:08 |
1 | 1/4/2022 | 0:19:00 | 0:00:40 |
1 | 1/5/2022 | 0:13:00 | 0:00:33 |
1 | 1/6/2022 | 0:08:00 | 0:00:22 |
1 | 1/7/2022 | 0:13:00 | 0:00:13 |
2 | 1/3/2022 | 0:13:50 | 0:00:15 |
2 | 1/4/2022 | 0: 14:00 | 0:00:33 |
2 | 2022 年 1 月 5 日 | 0:09:00 | 0:00:21 |
2 | 2022年1月6日 | 0:14:00 | 0:00:12 |
3 | 2022年1月3日 | 0:14:50 | 0:00:17 |
3 | 2022年1月4日 | 0:15:00 | 0: 00:34 |
3 | 1/5/2022 | 0:10:00 | 0:00:23 |
3 | 2022年1月6日 | 0:15:00 | 0:00:14 |
3 | 2022年1月7 | 日 0:14:50 | 0:00:17 |
--- | -------- | -------- ---- | ------------ |
输出数据帧: 按 ID 分组,将日期计算为工作日期、personal_aux 的总和以及 outbound_aux
ID | 的总和Day_worked | Sum_personal_AUX | Sum_outbound_aux |
---|---|---|---|
1 | 5 | 1:02:00 | 0:1:56 |
2 | 4 | 0:50:50 | 0:1:21 |
3 | 5 | 1: 09:00 | 0:1:45 |
有人可以指导在 pyspark 中的时间列上进行聚合吗?提前致谢
Input Dataframe:
ID | DATE | PERSONAL_AUX | OUTBOUND_AUX |
---|---|---|---|
1 | 1/3/2022 | 0:09:00 | 0:00:08 |
1 | 1/4/2022 | 0:19:00 | 0:00:40 |
1 | 1/5/2022 | 0:13:00 | 0:00:33 |
1 | 1/6/2022 | 0:08:00 | 0:00:22 |
1 | 1/7/2022 | 0:13:00 | 0:00:13 |
2 | 1/3/2022 | 0:13:50 | 0:00:15 |
2 | 1/4/2022 | 0:14:00 | 0:00:33 |
2 | 1/5/2022 | 0:09:00 | 0:00:21 |
2 | 1/6/2022 | 0:14:00 | 0:00:12 |
3 | 1/3/2022 | 0:14:50 | 0:00:17 |
3 | 1/4/2022 | 0:15:00 | 0:00:34 |
3 | 1/5/2022 | 0:10:00 | 0:00:23 |
3 | 1/6/2022 | 0:15:00 | 0:00:14 |
3 | 1/7/2022 | 0:14:50 | 0:00:17 |
--- | -------- | ------------ | ------------ |
Output Dataframe:
group by ID, count the Date as date worked, sum of personal_aux and sum of outbound_aux
ID | Day_worked | Sum_personal_AUX | Sum_outbound_aux |
---|---|---|---|
1 | 5 | 1:02:00 | 0:1:56 |
2 | 4 | 0:50:50 | 0:1:21 |
3 | 5 | 1:09:00 | 0:1:45 |
Can someone guide, in doing aggregate over a time column in pyspark. Thanks in Advance
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)