Hadoop不同salve节点可以区分以处理不同的指定数据吗？

发布于 2022-08-28 12:28:29 字数 446 浏览 17 评论 0

我的需求是这样的：

比如有三个文件需要作为mapper输入处理：file01, file02和file03。

另外还有三个文件作为配置参数存放在本地：r1, r2和r3。

我的mapper程序需要对r1，r2和r3做处理并分别生成三个不同的处理实例，处理算法一样，只是参数不同，所以生成了不同的类实例如p1, p2和p3，然后我想让p1只处理file01，p2只处理file02，p3处理只file03，并分别放到三个slave节点上各自处理，互不影响，然后将计算结果通过reduce进行汇总，这样可以吗？

我这样的目的是为了性能开销，因为r1，r2和r3实例都非常大，如果合并成一个实例计算太慢。以我的知识，这样的需求在Hadoop上不能实现，因为Hadoop上map输入文件似乎是不可区分的。急，求Hadoop大神帮忙提个想法，非常感谢。

分享到QQ

分享到微博