如何按照数据框的大小过滤（以字节）进行过滤记录

发布于 2025-02-08 08:45:12 字数 815 浏览 1 评论 0原文

我有一个数据框，在Pyspark中，需要根据其大小（IN字节）过滤其记录。

我们正在应用此逻辑，但在所有情况下似乎都没有起作用。

purge_timestamp = getPurgeTimestamp()
updatedFrame = df.withColumn('ttlExpDate', lit(purge_timestamp).cast("long"))

...

columns = updatedFrame.columns
dfFinal = updatedFrame.withColumn('size', getSize(to_json(struct([updatedFrame[x] for x in columns]))))
dfFinal = dfFinal.withColumn('s3Key', lit(""))

...

dfFinal = updatedFrame.withColumn('size', getSize(to_json(struct([updatedFrame[x] for x in columns]))))

...

@udf(returnType=IntegerType())
def getSize(value):
value = json.dumps(value)
return len(value.encode('utf-8', 'ignore'))//1024

我没有日志可以显示，因为我们正在处理数百万个记录，并且无法打印每个步骤的结果。

感谢帮助:)

谢谢！

原文

I have a Data Frame, in PySpark, and need to filter the records of it based on its size (in Bytes).

We are applying this logic but it doesn't seem to work in all cases.

purge_timestamp = getPurgeTimestamp()
updatedFrame = df.withColumn('ttlExpDate', lit(purge_timestamp).cast("long"))

...

columns = updatedFrame.columns
dfFinal = updatedFrame.withColumn('size', getSize(to_json(struct([updatedFrame[x] for x in columns]))))
dfFinal = dfFinal.withColumn('s3Key', lit(""))

...

dfFinal = updatedFrame.withColumn('size', getSize(to_json(struct([updatedFrame[x] for x in columns]))))

...

@udf(returnType=IntegerType())
def getSize(value):
value = json.dumps(value)
return len(value.encode('utf-8', 'ignore'))//1024

I do not have logs to show since we are processing millions of records and could not print the outcome of each step.

Appreciate the help :)

Thanks!

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

关于作者

泛滥成性

暂无简介

文章

1011 人气

关注发私信

alipaysp_snBf0MSZIv

文章 0 评论 0

关注

梦断已成空

文章 0 评论 0

关注

瞎闹

文章 0 评论 0

关注

凯凯我们等你回来

文章 0 评论 0

关注

寄意

文章 0 评论 0

关注

似梦非梦

文章 0 评论 0

友情链接

文江博客

如何按照数据框的大小过滤（以字节）进行过滤记录

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

关于作者

相关话题

热门标签

推荐作者

alipaysp_snBf0MSZIv

梦断已成空

瞎闹

凯凯我们等你回来

寄意

似梦非梦

友情链接

如何按照数据框的大小过滤（以字节）进行过滤记录

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

关于作者

相关话题

热门标签

推荐作者

alipaysp_snBf0MSZIv

梦断已成空

瞎闹

凯凯我们等你回来

寄意

似梦非梦

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。