当前位置：文江博客话题详情

HDFS中是否允许使用合并或重新分区来合并小文件（但合并后会很大）？

发布于 2025-01-16 11:45:20 字数 450 浏览 3 评论 0原文

我正在使用 hdfs-sink-connector 将 Kafka 的数据消费到 HDFS 中。

Kafka连接器每10分钟写入一次数据，有时写入的文件非常小；它的大小从 2MB 到 100MB 不等。因此，写入的文件实际上浪费了我的 HDFS 存储，因为每个块大小为 256MB。

该目录是按日期创建的；所以我想知道如果每天批量将许多小文件合并为一个大文件会很棒。（我预计 HDFS 会自动将一个大文件划分为块大小。）

我知道有很多答案说我们可以使用 Spark 的 coalesce(1) 或 repartition(1)，但我担心如果我读取整个目录并使用这些函数会出现 OOM 错误；如果我把每个文件都读一遍的话，可能会超过90GB~100GB。

HDFS 中允许 90~100GB 吗？我不需要担心吗？谁能告诉我是否有合并小型 HDFS 文件的最佳实践？谢谢！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

忆悲凉 2025-01-23 11:45:20

因此，写入的文件实际上浪费了我的 HDFS 存储，因为每个块大小为 256MB。

HDFS 不会“填充”块中未使用的部分。因此，2MB 文件仅使用磁盘上的 2MB（如果考虑 3 次复制，则为 6MB）。 HDFS 上小文件的主要问题是数十亿个小文件可能会导致问题。

如果我读取整个目录并使用这些函数，我担心 OOM 错误

Spark 可能是一个内存中处理框架，但如果数据不适合内存，它仍然可以工作。在这种情况下，处理会溢出到磁盘上，并且速度会慢一些。

HDFS 中允许 90~100GB 吗？

这绝对没问题——毕竟这是大数据。正如您所指出的，实际文件将在后台分割成更小的块（但除非您使用hadoop fsck，否则您不会看到这一点）。

回复收藏 0 原文

~没有更多了~

关于作者

你怎么敢

暂无简介

文章

27 人气

关注发私信

櫻之舞

文章 0 评论 0

关注

弥枳

文章 0 评论 0

关注

m2429

文章 0 评论 0

关注

寻找一个思念的角度

文章 0 评论 0

关注

野却迷人

文章 0 评论 0

关注

我怀念的。

文章 0 评论 0

友情链接

文江博客

HDFS中是否允许使用合并或重新分区来合并小文件（但合并后会很大）？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

櫻之舞