如何告诉 MapReduce 使用多少个映射器？

发布于 2024-12-04 07:56:13 字数 248 浏览 1 评论 0原文

我正在尝试加速优化 MapReduce 作业。

有什么方法可以告诉 hadoop 使用特定数量的映射器/减速器进程吗？或者，至少，映射器进程的数量最少？

在文档中，指定您可以使用

public void setNumMapTasks(int n)

JobConf 类的方法来执行此操作。

这种方式并没有过时，所以我从 Job 类开始 Job。这样做的正确方法是什么？

原文

I am trying to speed optimize MapReduce job.

Is there any way I can tell hadoop to use a particular number of mapper/reducer processes? Or, at least, minimal number of mapper processes?

In the documentation, it is specified, that you can do that with the method

public void setNumMapTasks(int n)

of the JobConf class.

That way is not obsolete, so I am starting the Job with Job class. What is the right way of doing this?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

黑凤梨 2024-12-11 07:56:13

映射任务的数量由输入中的块数量决定。如果输入文件为 100MB，HDFS 块大小为 64MB，则输入文件将占用 2 个块。因此，将产生 2 个地图任务。 JobConf.setNumMapTasks() (1) 对框架的提示。

减速器的数量由 JboConf.setNumReduceTasks() 函数设置。这决定了作业的reduce 任务总数。此外，mapred.tasktracker.tasks.maximum 参数确定可以在单个作业跟踪器节点上并行运行的reduce 任务的数量。

找到有关映射和归约作业数量的更多信息

您可以在 (2) (1) - http://hadoop.apache.org/mapreduce/docs/r0.21.0/api/org/apache/hadoop/mapred/JobConf.html#setNumMapTasks%28int%29
(2) - http://wiki.apache.org/hadoop/HowManyMapsAndReduces

回复收藏 0 原文

~没有更多了~

关于作者

痴情换悲伤

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

如何告诉 MapReduce 使用多少个映射器？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

尘世孤行

烟─花易冷

你是年少的欢喜

倒带

忱杏

送君千里

友情链接

如何告诉 MapReduce 使用多少个映射器？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

尘世孤行

烟─花易冷

你是年少的欢喜

倒带

忱杏

送君千里

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。