当前位置：文江博客话题详情

使用 Hadoop MapReduce 进行并行缩减

发布于 2024-11-26 04:43:31 字数 384 浏览 2 评论 0原文

我正在使用 Hadoop 的 MapReduce。我有一个文件作为地图函数的输入，地图函数做了一些事情（与问题无关）。我希望我的减速器能够获取地图的输出并写入两个不同的文件。在我看来（我想要一个有效的解决方案），我想到了两种方法：

1 个减速器，它知道识别不同的情况并写入 2 个不同的上下文。
2 个并行的减速器，每个减速器都会知道识别其相关输入，忽略另一个的输入，这样每个减速器都会写入一个文件（每个减速器都会写入不同的文件）。

我更喜欢第一个解决方案，因为这意味着我只会检查地图的输出一次而不是并行两次 - 但如果第一个在某种程度上不受支持 - 我会很高兴听到一个解决方案第二个建议。

*注意：这两个最终文件应该是分开的，此时无需将它们连接起来。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

苏大泽ㄣ 2024-12-03 04:43:31

Hadoop API 具有创建多个输出的功能，称为 MultipleOutputs 这使您的首选解决方案成为可能。

回复收藏 0 原文

云之铃。 2024-12-03 04:43:31

如果您在映射阶段知道记录必须转到哪个文件，则可以使用特殊键来标记映射输出，指定记录应转到哪个文件。例如，如果记录 R1 必须转到文件 1，则将输出 <1, R1>..（1 是键.. file1 的符号表示，R1 是值）如果记录 R2 必须转到文件2，您的地图输出将是 <2, R2>。

然后，如果您将映射缩减作业配置为仅使用 2 个缩减程序..它将保证所有标记有 <1, _> 的记录将被发送到1个reducer和<2,_>;将被发送给对方。

这会比您首选的解决方案更好，因为您仍然只需要一次地图输出......同时，它将是并行的。

回复收藏 0 原文

~没有更多了~

关于作者

旧夏天

暂无简介

0 文章

0 评论

25 人气

关注发私信

友情链接

文江博客

使用 Hadoop MapReduce 进行并行缩减

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

Gabu-gabumon

qq_CgiN62

荔枝明

赏烟花じ飞满天

独守阴晴ぅ圆缺

¤→小豸慧

友情链接

使用 Hadoop MapReduce 进行并行缩减

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

Gabu-gabumon

qq_CgiN62

荔枝明

赏烟花じ飞满天

独守阴晴ぅ圆缺

¤→小豸慧

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。