自定义分区器示例

发布于 2024-12-11 17:12:51 字数 149 浏览 4 评论 0 原文

我正在尝试为有些倾斜的输入数据编写一个新的 Hadoop 作业。对此的一个类比是 Hadoop 教程中的字数统计示例，除非假设某个特定单词出现了很多次。

我想要一个分区函数，其中这个键将根据通常的哈希分区映射到多个减速器和其余键。这可能吗？

提前致谢。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

给妤﹃绝世温柔 2024-12-18 17:12:51

不要认为在 Hadoop 中相同的键可以映射到多个减速器。但是，可以对键进行分区，以便减速器或多或少均匀地加载。为此，应对输入数据进行采样并对键进行适当的分区。有关自定义分区程序的更多详细信息，请查看 Yahoo Paper。 Yahoo Sort 代码位于 org.apache.hadoop.examples.terasort 包。

假设输入中键 A 有 10 行，B 有 20 行，C 有 30 行，D 有 60 行。然后可以将密钥A、B、C发送到reducer 1，将密钥D发送到reducer 2，以使reducer上的负载均匀分布。要对键进行分区，必须进行输入采样以了解键的分布方式。

这里还有一些可以让作业更快完成的建议。

在 Combiner .apache.org/mapreduce/docs/r0.21.0/api/org/apache/hadoop/mapred/JobConf.html#setCombinerClass%28java.lang.Class%29" rel="noreferrer">JobConf 来减少发送到reducer的key的数量。这也减少了映射器和减速器任务之间的网络流量。尽管如此，并不能保证 Hadoop 框架会调用组合器。

另外，由于数据是倾斜的（一些键一次又一次重复，比如说“工具”），您可能需要增加减少任务的数量以更快地完成作业。这确保了当一个减速器处理“工具”时，其他数据正在由其他减速器并行处理。