文章来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

MapReduce Combiner

发布于 2024-06-23 12:22:11 字数 1819 浏览 0 评论 0 收藏 0

当我们用 MapReduce 作业处理大数据集的时候，Mapper 生成的中间结果数据就会比较大，而且这些中间结果数据后续会被传输到 Reducer 继续处理，这会导致非常大的网络开销，甚至网络堵塞。MapReduce 框架提供了一个函数——Hadoop Combiner 函数，它在减少网络阻塞方面扮演着一个关键的角色。

我们在之前已经学习了 Hadoop MapReduce 框架的 mapper 和 reducer。现在我们来学习 Hadoop MapReduce 框架的 Combiner。

MapReduce combiner 也被称为 “微型 reducer ”。combiner 的主要工作就是在 Mapper 的输出数据被传输到 Reducer 之前对这些数据进行处理。它在 mapper 之后 reducer 之前执行，也就是在 mapper 和 reducer 两个阶段的中间执行。并且 combiner 的执行是可选的，即可用可不用。

MapReduce combiner 工作原理

让我们来理解一下 Hadoop combiner 的工作原理，以及比较一下使用了 combiner 和未使用两者的区别。

未使用 combiner 的 MapReduce 程序

未使用combiner的mapreduce程序

在上图中，MapReduce 程序没有使用 combiner。输入数据被分到两个 mapper 里面，并且生成了 9 个 key。现在 mapper 的中间结果已经产生了，即上图所示的 9 个键值对。后续 mapper 将会把这些数据直接发送到 reducer。在数据发送给 reducer 期间，这些数据的传输会消耗一些网络带宽（带宽，即在两台机器间传输数据的时间消耗）。如果数据容量很大，那么数据传输到 reducer 的耗时就更长。

如果我们在 mapper 和 reducer 中间使用了 combiner，那么，数据在从 mapper 传输到 reducer 之前，combiner 会对数据按 key 做聚合，那么输出的数据就是 4 个键值对。