如何使用Pyspark以最佳的方式将数据添加到镶木quet文件中？

发布于 2025-01-31 09:02:02 字数 352 浏览 4 评论 0原文

我有一个名为CustomerActions的镶木quet文件。每天我使用此语法在那里添加1000行：

spark.sql('select * from customerActions').write.mode('append').parquet("/Staging/Mind/customerActions/")

现在我面临以下问题：由于此文件包含很多文件，因此阅读此文件需要很多时间，因为每天我添加一个小的文件此文件的数据量“/staging/staging/customeractions/”“

如何使读取文件”/staging/staging/corventing/customeractions/“更快？

原文

I have a parquet file called customerActions. Every day I add 1000 lines there using this syntax:

spark.sql('select * from customerActions').write.mode('append').parquet("/Staging/Mind/customerActions/")

And now I'm faced with the following problem: reading this file takes a lot of time due to the fact that this file contains a lot of files, because every day I add a small amount of data to this file "/Staging/Mind/customerActions/"

How can I make reading the file "/Staging/Mind/customerActions/" faster?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

柒七 2025-02-07 09:02:02

提高此速度的一种方法是将小文件合并为较大的文件，以便您可以将现有路径读取到数据框架中，然后在其上运行重新分配，然后回信，然后理想地提高读取的性能

回复收藏 0 原文

夜灵血窟げ 2025-02-07 09:02:02

如果您可以使用多个文件夹，则可以使用dataFrameWriter.partitionby将客户分组从某个星期分组为一个目录。我通常会按年/月/天进行分区数据，但也可能进行任何其他标准（请参见 /a>示例）。

当您想读取文件时，您可以读取数据的子集和/或并行读数，这两个都应该使其更快。

回复收藏 0 原文

~没有更多了~

关于作者

无名指的心愿

暂无简介

文章

26 人气

关注发私信

十二

文章 0 评论 0

关注

飞烟轻若梦

文章 0 评论 0

关注

OPleyuhuo

文章 0 评论 0

关注

wxb0109

文章 0 评论 0

关注

旧城空念

文章 0 评论 0

关注

-小熊_

文章 0 评论 0

友情链接

文江博客

如何使用Pyspark以最佳的方式将数据添加到镶木quet文件中？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者