gzip 输入文件大小 > 的问题64MB

发布于 2025-01-02 10:42:18 字数 965 浏览 0 评论 0原文

我正在运行 Hadoop 流作业，它只有映射器，没有减速器。我为这项工作提供了 4 个输入文件，这些文件都经过 gzip 压缩，以确保每个输入文件都发送到一个映射器。两个 gzip 压缩输入文件的大小小于 64 MB，而另外两个 gzip 压缩输入文件的大小大于 64 MB。作业运行了近 40 分钟的很长一段时间，然后失败并显示“错误：失败的映射任务数超出了允许的限制”。通常该作业不应超过 1 分钟，不知道为什么它持续了 40 分钟

当我检查输出目录时，我发现输出是为两个大小 < 的 gzip 压缩输入文件生成的。 64 MB，并且对于大小大于 64 MB 的 gzip 压缩输入文件不会生成输出64MB。

有人见过这样的行为吗？

启动作业时，我看到以下消息（如果我将较小的文件（< 64 MB）作为作业的输入传递，则不会看到此消息）

12/02/06 10:39:10 INFO mapred.FileInputFormat：总输入路径待处理：2 12/02/06 10:39:10 INFO net.NetworkTopology：添加新节点：/10.209.191.0/10.209.191.57:1004 12/02/06 10:39:10 INFO net.NetworkTopology：添加新节点：/10.209.191.0/10.209.191.50:1004 12/02/06 10:39:10 INFO net.NetworkTopology：添加新节点：/10.209.186.0/10.209.186.28:1004 12/02/06 10:39:10 INFO net.NetworkTopology：添加新节点：/10.209.188.0/10.209.188.48:1004 12/02/06 10:39:10 INFO net.NetworkTopology：添加新节点：/10.209.185.0/10.209.185.50:1004 12/02/06 10:39:10 INFO net.NetworkTopology：添加新节点：/10.209.188.0/10.209.188.35:1004

原文