hadoop 2.2.0 关于map和reduce的个数的设置

发布于 2022-08-30 00:06:12 字数 698 浏览 18 评论 0

关于hadoop中的map过程，我的理解是每一个map系统会开启一个JVM进程来处理，map之间相互并行，map函数内串行。这样的想法是否正确？

由于想在hadoop集群上算一个初始输入数据不多，但是计算很复杂的程序，希望通过mapreduce来达到并行计算的目的。可以通过job.setNumReduceTasks(0);语句设置reduce个数为0,只使用map来计算。但是设置map的个数时遇到了问题：新的API中job没有类似setNumMapTasks()这样的方法; 在运行时加入参数-D mapreduce.map.tasks=2这样的参数也无效。

查过好多资料，好像是说map的个数取决于block_size、total_size等参数。但是都说的是1.x版本的设置，hadoop 2.2.0上并没有找到mapred.map.tasks、mapred.min.split.size等对应的设置方法。

由于我的输入文件只有一个文件，而且不算是“大数据”，只是单纯想在hadoop上实现并行，所以我希望能够设置一个最少的map数目，以便能在各个计算节点上并行。请问我应该如何设置？

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

杀お生予夺 2022-09-06 00:06:12

事隔10天后无人回答，再次自问自答（— . —！）。最近看到一本书，上面介绍自定义InputFormat来控制map个数以及存储位置。稍微看了下FileInputFormat的接口，发现居然有setMaxInputSplitSize()这个静态方法。（自己以前怎么没发现！！也怪自己懒，不愿意去找）在run方法中加了这么一句FileInputFormat.setMaxInputSplitSize(job, 1048576), 再次运行貌似有效，程序生成了6个map来运行。

但感到没法解释的有两点：