hadoop 2.2.0 关于map和reduce的个数的设置
关于hadoop中的map过程,我的理解是每一个map系统会开启一个JVM进程来处理,map之间相互并行,map函数内串行。这样的想法是否正确?
由于想在hadoop集群上算一个初始输入数据不多,但是计算很复杂的程序,希望通过mapreduce来达到并行计算的目的。可以通过job.setNumReduceTasks(0);
语句设置reduce
个数为0,只使用map
来计算。但是设置map
的个数时遇到了问题:新的API中job
没有类似setNumMapTasks()
这样的方法; 在运行时加入参数-D mapreduce.map.tasks=2
这样的参数也无效。
查过好多资料,好像是说map
的个数取决于block_size
、total_size
等参数。但是都说的是1.x版本的设置,hadoop 2.2.0上并没有找到mapred.map.tasks
、mapred.min.split.size
等对应的设置方法。
由于我的输入文件只有一个文件,而且不算是“大数据”,只是单纯想在hadoop上实现并行,所以我希望能够设置一个最少的map
数目,以便能在各个计算节点上并行。请问我应该如何设置?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
事隔10天后无人回答,再次自问自答(— . —!)。最近看到一本书,上面介绍自定义
InputFormat
来控制map个数以及存储位置。稍微看了下FileInputFormat
的接口,发现居然有setMaxInputSplitSize()
这个静态方法。(自己以前怎么没发现!! 也怪自己懒,不愿意去找) 在run
方法中加了这么一句FileInputFormat.setMaxInputSplitSize(job, 1048576)
, 再次运行貌似有效,程序生成了6个map来运行。但感到没法解释的有两点:
我的环境为hadoop 2.2.0,我曾经试过修改
dfs.blocksize
等配置参数,但是似乎都没有生效。不知道为什么会出现配置参数无效的情况。补充:刚才了解到最终的分片大小
splitSize
受到maxsize
、minsize
以及blocksize
的影响。设置FileInputFormat.setMinInputSplitSize(job, 1)
后,map数果然达到了20。我想问下,你设置了1后为什么就可以了呢?
你是怎么算的,我找了一些算Map的公式,但是缺少一个Map出来。你可以说说你的方法吗
同样Hadoop2.2