当前位置：文江博客话题详情

关于 Hadoop 和压缩输入文件的非常基本的问题

发布于 2024-08-18 06:39:13 字数 198 浏览 3 评论 0原文

我已经开始研究 Hadoop。如果我的理解是正确的，我可以处理一个非常大的文件，它会被分割到不同的节点上，但是如果文件被压缩，那么文件就无法分割，并且需要由单个节点处理（有效地破坏了运行一个mapreduce（一个并行机器集群）。

我的问题是，假设上述内容是正确的，是否可以将大文件手动分割为固定大小的块或每日块，压缩它们，然后传递压缩输入文件的列表来执行映射缩减？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

思念绕指尖 2024-08-25 06:39:13

BZIP2 在 hadoop 中是可分割的 - 它提供了非常好的压缩比，但从 CPU 时间和性能来看并不能提供最佳结果，因为压缩非常消耗 CPU。

LZO 在 hadoop 中是可拆分的 - 利用hadoop-lzo< /strong> 您有可分割的压缩 LZO 文件。您需要有外部 .lzo.index 文件才能并行处理。该库提供了以本地或分布式方式生成这些索引的所有方法。

LZ4 在 hadoop 中是可拆分的 - 利用 hadoop-4mc 您有可分割的压缩 4mc 文件。您不需要任何外部索引，并且可以使用提供的命令行工具或通过 Java/C 代码在 hadoop 内部/外部生成档案。 4mc 可以在 hadoop LZ4 上以任何速度/压缩比级别使用：从达到 500 MB/s 压缩速度的快速模式到提供更高压缩比的高/超模式，几乎与 GZIP 相当。