按ID进行汇总，计数日期字段，并在时间字段上汇总

发布于 2025-01-18 17:09:25 字数 1844 浏览 4 评论 0原文

输入数据帧：

ID	DATE	PERSONAL_AUX	OUTBOUND_AUX
1	1/3/2022	0:09:00	0:00:08
1	1/4/2022	0:19:00	0:00:40
1	1/5/2022	0:13:00	0:00:33
1	1/6/2022	0:08:00	0:00:22
1	1/7/2022	0:13:00	0:00:13
2	1/3/2022	0:13:50	0:00:15
2	1/4/2022	0: 14:00	0:00:33
2	2022 年 1 月 5 日	0:09:00	0:00:21
2	2022年1月6日	0:14:00	0:00:12
3	2022年1月3日	0:14:50	0:00:17
3	2022年1月4日	0:15:00	0: 00:34
3	1/5/2022	0:10:00	0:00:23
3	2022年1月6日	0:15:00	0:00:14
3	2022年1月7	日 0:14:50	0:00:17
---	--------	-------- ----	------------

输出数据帧：按 ID 分组，将日期计算为工作日期、personal_aux 的总和以及 outbound_aux

ID	的总和Day_worked	Sum_personal_AUX	Sum_outbound_aux
1	5	1:02:00	0:1:56
2	4	0:50:50	0:1:21
3	5	1: 09:00	0:1:45

有人可以指导在 pyspark 中的时间列上进行聚合吗？提前致谢

原文

Input Dataframe:

ID	DATE	PERSONAL_AUX	OUTBOUND_AUX
1	1/3/2022	0:09:00	0:00:08
1	1/4/2022	0:19:00	0:00:40
1	1/5/2022	0:13:00	0:00:33
1	1/6/2022	0:08:00	0:00:22
1	1/7/2022	0:13:00	0:00:13
2	1/3/2022	0:13:50	0:00:15
2	1/4/2022	0:14:00	0:00:33
2	1/5/2022	0:09:00	0:00:21
2	1/6/2022	0:14:00	0:00:12
3	1/3/2022	0:14:50	0:00:17
3	1/4/2022	0:15:00	0:00:34
3	1/5/2022	0:10:00	0:00:23
3	1/6/2022	0:15:00	0:00:14
3	1/7/2022	0:14:50	0:00:17
---	--------	------------	------------

Output Dataframe:
group by ID, count the Date as date worked, sum of personal_aux and sum of outbound_aux

ID	Day_worked	Sum_personal_AUX	Sum_outbound_aux
1	5	1:02:00	0:1:56
2	4	0:50:50	0:1:21
3	5	1:09:00	0:1:45

Can someone guide, in doing aggregate over a time column in pyspark. Thanks in Advance

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

相守太难 2025-01-25 17:09:25

from pyspark.sql import functions as F
from pyspark.sql import types as T
import datetime

def secscon(x):     
    sec = x     
    return str(datetime.timedelta(seconds=sec))
    
df = input_df \
    .withColumn('PERSONAL_AUX_SEC', F.unix_timestamp(F.col('PERSONAL_AUX'), 'H:mm:ss')) \
    .withColumn('OUTBOUND_AUX_SEC', F.unix_timestamp(F.col('OUTBOUAND_AUX'), 'H:mm:ss')) \
    .withColumn('ID', F.col('ID').cast('int'))
    .groupBy('ID') \
    .agg(
       F.count('DATE').alias('Days_worked'),
       F.sum('PERSONAL_AUX_SEC').alias('sum_personal_aux').cast('double'),
       F.sum('OUTBOUND_AUX_SEC').alias('sum_outbound_aux').cast('double')
    )) 
    
schema = T.StructType([
    T.StructField('ID',T.IntegerType(),True),
    T.StructField('Days_worked',T.IntegerType(),True),
    T.StructField('sum_personal_aux',T.StringType(),True),
    T.StructField('sum_outbound_aux',T.StringType(), True)
])  
    
df1 = df.rdd.map(lambda x: (x[0], x[1] , secscon(x[2]), secscon(x[3]))).toDF(schema)

from pyspark.sql import functions as F
from pyspark.sql import types as T
import datetime

def secscon(x):     
    sec = x     
    return str(datetime.timedelta(seconds=sec))
    
df = input_df \
    .withColumn('PERSONAL_AUX_SEC', F.unix_timestamp(F.col('PERSONAL_AUX'), 'H:mm:ss')) \
    .withColumn('OUTBOUND_AUX_SEC', F.unix_timestamp(F.col('OUTBOUAND_AUX'), 'H:mm:ss')) \
    .withColumn('ID', F.col('ID').cast('int'))
    .groupBy('ID') \
    .agg(
       F.count('DATE').alias('Days_worked'),
       F.sum('PERSONAL_AUX_SEC').alias('sum_personal_aux').cast('double'),
       F.sum('OUTBOUND_AUX_SEC').alias('sum_outbound_aux').cast('double')
    )) 
    
schema = T.StructType([
    T.StructField('ID',T.IntegerType(),True),
    T.StructField('Days_worked',T.IntegerType(),True),
    T.StructField('sum_personal_aux',T.StringType(),True),
    T.StructField('sum_outbound_aux',T.StringType(), True)
])  
    
df1 = df.rdd.map(lambda x: (x[0], x[1] , secscon(x[2]), secscon(x[3]))).toDF(schema)

回复收藏 0 原文

~没有更多了~