当前位置：文江博客话题详情

为什么Parquet文件在Pyspark中生成多个部分？

发布于 2025-02-08 18:19:46 字数 237 浏览 0 评论 0原文

经过一项广泛的研究，我认为

parquet是一种面向列的数据文件格式，旨在有效的数据存储和检索。它提供有效的数据压缩和编码方案具有增强性能，以处理大量的复杂数据。

但是，我无法理解为什么Parquet运行df.write.parquet.parquet（“/tmp/输出/my_parquet.parquet”），尽管支持灵活的压缩选项和有效的编码。这与并行处理或类似概念直接相关？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

再可℃爱ぅ一点好了 2025-02-15 18:19:46

许多框架都利用了镶木式格式的此多文件布局功能。因此，我会说这是标准选项，是镶木木规范的一部分，默认情况下使用它。

这确实对并行处理具有好处，也有其他用例，例如云或网络文件系统上的处理（并行或系列），其中数据传输时间可能是IO总IO的很大一部分。在这些情况下，使用小元数据文件的镶木木木“ Hive”格式提供了有关读取哪些数据文件的统计信息和信息，在阅读数据的小子集时会提供显着的性能好处。无论是单线程应用程序正在读取数据的一个子集还是并行过程中的每个工人都在读取整体的一部分，这是正确的。

回复收藏 0 原文