当前位置：文江博客话题详情

如何保证MapReduce任务之间相互独立？

发布于 2024-08-24 03:54:21 字数 91 浏览 18 评论 0原文

我很好奇，MapReduce、Hadoop 等如何将一大块数据分解成独立操作的任务？我很难想象这是怎么回事，考虑到数据之间的相互关联性、任务之间的状态条件等是很常见的。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

泛滥成性 2024-08-31 03:54:21

如果数据是相关的，那么您的工作就是确保信息得到传递。 MapReduce 会分解数据并处理它，而不管任何（未实现的）关系：

Map 只是从输入文件中读取块中的数据，并将它们一次一个“记录”地传递给映射函数。默认记录是一行（但可以修改）。

您可以在 Map 中标注数据的来源，但您基本上可以使用 Map 做的是：对数据进行分类。您发出新键和新值，并按新键进行 MapReduce 分组。因此，如果不同记录之间存在关系：选择相同（或相似的 *1）键来发出它们，因此它们被分组在一起。

对于Reduce，数据被分区/排序（即分组发生的地方），然后reduce函数接收来自一组的所有数据：一个键及其所有关联值。现在您可以聚合这些值。就是这样。

这样你就有了一个由 MapReduce 实现的整体 group-by。其他一切都是你的责任。您想要两个来源的交叉产品吗？例如，通过引入人工密钥和多重发射（片段和复制连接）来实现它。你的想象力是极限。并且：您始终可以通过另一个作业传递数据。

*1：类似，因为您可以影响稍后分组的选择。通常它是组恒等函数，但你可以改变它。

回复收藏 0 原文

~没有更多了~

关于作者

極樂鬼

暂无简介

文章

26 人气

关注发私信

友情链接

文江博客

如何保证MapReduce任务之间相互独立？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

十二

飞烟轻若梦

OPleyuhuo

wxb0109

旧城空念

-小熊_

友情链接

如何保证MapReduce任务之间相互独立？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

十二

飞烟轻若梦

OPleyuhuo

wxb0109

旧城空念

-小熊_

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。