hadoop 0.20中如何设置map任务的数量?
我正在尝试设置要在 hadoop 0.20 环境中运行的映射任务的数量。
我正在使用旧的 api。
以下是我到目前为止尝试过的选项:
conf.set("mapred.tasktracker.map.tasks.maximum", "5");
conf.set("mapred.map.tasks", "10");
conf.set("mapred.map.tasksperslot", "5");
conf.set("mapred.tasktracker.map", "5");
conf.set("mapred.map.parallel.copies", "5");
启用所有这些选项后,并行运行的映射任务数量仍为 2。
要设置哪些正确选项才能使并行运行的映射器数量最多为 5?
I'm trying to set the number of map tasks to run in hadoop 0.20 environment.
I am using the old api.
Here are the options I've tried so far:
conf.set("mapred.tasktracker.map.tasks.maximum", "5");
conf.set("mapred.map.tasks", "10");
conf.set("mapred.map.tasksperslot", "5");
conf.set("mapred.tasktracker.map", "5");
conf.set("mapred.map.parallel.copies", "5");
With all of those on, the number of map tasks running parallely remains 2.
What are the proper options to set to get the number of parallely running mappers up to 5?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
在 TaskTracker.java
根据“Hadoop:权威指南”。所以,在客户端设置属性是没有用的。您需要在配置文件中进行相同的设置。
In the TaskTracker.java
According to the "Hadoop : The Definitive Guide". So, setting the property on the client side is of no use. You need to set the same in the configuration file.
为了使答案与 Hadoop API 的更改保持同步,我列出了已弃用属性的新替代品。
看看这个链接 已弃用的 API 和新的 API
但我更喜欢将地图任务的数量保留在框架本身中,以获得更好的工作性能。
To keep answer up-to-date with changes in Hadoop API, I have listed new replacements for deprecated properties.
Have a look at this link for deprecated API & new API
But I prefer to keep number of map tasks decision to framework itself for better performance of job.