当前位置：文江博客话题详情

在小型 HDFS 文件上长时间运行地图任务

发布于 2025-01-01 13:16:25 字数 351 浏览 2 评论 0原文

想象一个场景，您有一个文本文件，其中有 10000 行，因此当您将其保存在 HDFS 中时，它会非常小。现在您的目标是在这个小文件上运行映射/归约作业，期望将文本文件的每一行传递给映射器。然而，每个映射 k,v 的处理时间很长，您希望在集群上启动尽可能多的映射器以获得最大可能的并行度，从而尽快完成映射作业。

因为文件很小，所以它只能保存在一两个 hdfs 块中，并且我假设 hadoop 为该作业配置的映射数量将等于恰好是一两个 hdfs 块的数量。但这是不希望的，因为您希望启动尽可能多的映射器。这是我的问题？

对于小文件处理场景，我可以选择哪些选项来控制适当数量的映射器？
每个可用选项的优点和缺点是什么？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（1）

九局 2025-01-08 13:16:25

最好的方法是使用 NLineInputFormat。根据文档NLineInputFormat，它将 N 行输入拆分为一个拆分。这种方法的缺点是数据局部性丢失，因为数据很小，所以应该不重要。

回复收藏 0 原文

~没有更多了~

关于作者

庆幸我还是我

暂无简介

文章

评论

26 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

眼泪淡了忧伤

文章 0 评论 0

corot39

文章 0 评论 0

守护在此方

文章 0 评论 0

github_3h15MP3i7

文章 0 评论 0

相思故

文章 0 评论 0

滥情空心

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文