当前位置：文江博客话题详情

MapReduce - 字数统计示例有什么好处

发布于 2024-12-04 17:28:57 字数 426 浏览 1 评论 0原文

我想了解 MapReduce 有什么好处，我刚刚第一次阅读了有关它的一些介绍。

他们都使用这个在大量文档中计算单词数的规范示例，但我没有看到好处。以下是我目前的理解，如有错误请指正。

我们指定输入文件（文档）的列表。 MapReduce 库获取此列表并将其在集群中的处理器之间划分。处理器中的每个文档都会传递给映射函数，在本例中该函数返回一个对的列表。

我有点不确定到底发生了什么。然后，库软件搜索所有不同处理器上的结果集，并将这些对与相同的单词（键）分组在一起。这些组在不同的处理器上收集，并且在该处理器上的每个组上调用reduce。

然后在主节点上收集组合结果。

这是正确的解释吗？

我不明白的是，由于需要对所有结果进行排序以将键分组，为什么不同时计算它找到的键，为什么需要减少？当查找和组合常用密钥的工作量很大时，此过程如何节省时间？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

森罗 2024-12-11 17:28:57

如果您观看完整的系列，这里有一个关于 MapReduce 算法的 YouTube 视频中的精彩视频共 5 个视频，它将让您更清楚地了解 MapReduce 并回答您的大部分疑问。

我不明白的是，由于需要对所有结果进行排序以对键进行分组，为什么不直接计算它同时找到的键，为什么需要reduce？当查找和组合通用密钥的工作量很大时，此过程如何节省时间？

因为单词计数示例中的特定单词（例如“sample”）的键/值对可能是由不同的发出的Map 任务将分布在不同的节点上，这些键/值对在发送到reduce 任务之前需要进行合并/排序。特定键的Reduce任务在单个节点上运行并且不是分布式的。

仅供参考，映射任务的结果在与映射任务相同的节点上使用组合器类（与减速器类相同）进行组合，以减少映射器和减速器之间的网络干扰。

回复收藏 0 原文

~没有更多了~

关于作者

云巢

暂无简介

0 文章

0 评论

24 人气

关注发私信

已经忘了多久

文章 0 评论 0

关注

15867725375

文章 0 评论 0

关注

LonelySnow

文章 0 评论 0

关注

走过海棠暮

文章 0 评论 0

关注

轻许诺言

文章 0 评论 0

关注

信馬由缰

文章 0 评论 0

友情链接

文江博客

MapReduce - 字数统计示例有什么好处

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签