当前位置：文江博客话题详情

GZIP hadoop MapReduce

仅使用一个映射器的 Hadoop gzip 输入文件

发布于 2024-12-04 04:27:15 字数 391 浏览 3 评论 0原文

可能的重复：
为什么hadoop不能分割一个大的文本文件，然后使用gzip压缩分割的内容？

我发现，当使用gzip压缩的输入文件时，Hadoop选择只分配一个map任务来处理我的数据。映射/减少作业。

gzipped 文件超过 1.4 GB，因此我希望许多映射器能够并行运行（就像使用未压缩文件时一样）

是否有任何配置可以改进它？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（1）

听风念你 2024-12-11 04:27:15

Gzip 文件无法分割，因此所有数据仅由一张地图处理。必须使用其他一些可以分割压缩文件的压缩算法，然后数据将被多个映射处理。这是一篇关于它的好文章。 (1)

编辑：这是另一篇关于 Snappy 的文章 (2)，来自 Google。

(1) http:// /blog.cloudera.com/blog/2009/11/hadoop-at-twitter-part-1-splittable-lzo-compression/

(2) http://blog.cloudera.com/blog/2011/09/snappy-和-hadoop/

回复收藏 0 原文

~没有更多了~

关于作者

始终不够爱げ你

暂无简介

0 文章

0 评论

24 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

已经忘了多久

文章 0 评论 0

15867725375

文章 0 评论 0

LonelySnow

文章 0 评论 0

走过海棠暮

文章 0 评论 0

轻许诺言

文章 0 评论 0

信馬由缰

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文