如何合并 2 个 bzip2 压缩文件？

发布于 2024-09-07 20:18:44 字数 196 浏览 17 评论 0原文

我想合并 2 个经过 bzip2 处理的文件。我尝试将一个附加到另一个： cat file1.bzip2 file2.bzip2 > out.bzip2 似乎可以工作（该文件已正确解压缩），但我想使用该文件作为 Hadoop 输入文件，并且收到有关损坏块的错误。

合并 2 个 bzip2'ed 文件而不解压它们的最佳方法是什么？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

氛圍 2024-09-14 20:18:45

处理串联 bzip 已固定在主干上，或者应该是：https://issues.apache。 org/jira/browse/HADOOP-4012。有它工作的示例： https://issues.apache.org/jira/browse/MAPREDUCE-477?focusedCommentId=12871993&page=com.atlassian.jira.plugin.system.issuetabpanels%3Acomment-tabpanel #action_12871993 确保您运行的是最新版本的 Hadoop，应该没问题。

回复收藏 0 原文

落花随流水 2024-09-14 20:18:45

您可以将它们都压缩（好吧，存储）到新的 bz2 中吗？这意味着您必须进行 3 次解压缩才能获取 2 个档案的内容，但可能适合您的场景。

回复收藏 0 原文

不甘平庸 2024-09-14 20:18:45

这个问题很老了，但我现在就遇到了，所以，如果其他人搜索这个问题，这就是我发现的将 HDFS 中的多个 bz2 文件合并到一个而不使用本地文件系统的方法。这也可以用于任何文本文件。

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
-input foo \
-output foo_merged \
-mapper /bin/cat \
-reducer /bin/cat

这将连接文件夹 foo 中的所有文件，并将单个文件 (part-00000) 写入文件夹 foo_merged。

您可以对输入文件夹使用通配符，或根据需要使用任意数量的 -input 以包含要加入的所有文件。

输出文件将被解压缩。如果您希望输出也以 bz2 压缩，您应该指定以下两个选项：

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
-D mapred.output.compress=true \
-D mapred.output.compression.codec=org.apache.hadoop.io.compress.BZip2Codec \
-input foo \
-output foo_merged \
-mapper /bin/cat \
-reducer /bin/cat

将 BZip2Codec 替换为您想要使用的任何一个。

更多信息请参见此处。

This question is quite old, but I came upon it right now, so, if anyone else searches for this, this is what I found to join multiple bz2 files in HDFS into one whithout using the local filesystem. This can be used for any text file also.

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
-input foo \
-output foo_merged \
-mapper /bin/cat \
-reducer /bin/cat

This joins all the files in folder foo and writes a single file (part-00000) to folder foo_merged.

You can use wildcards for the input folder or use as many -input as you need to include all the files that are going to be joined.

The output file will be uncompressed. If you want the output also compressed in bz2, you should specify these two options:

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
-D mapred.output.compress=true \
-D mapred.output.compression.codec=org.apache.hadoop.io.compress.BZip2Codec \
-input foo \
-output foo_merged \
-mapper /bin/cat \
-reducer /bin/cat

Replacing the BZip2Codec for whichever you want to use.

More info here.

回复收藏 0 原文