当前位置：文江博客话题详情

加入 PIG 对阵 COGROUP

发布于 2024-12-05 13:08:42 字数 245 浏览 4 评论 0原文

当我在 pig 中使用 COGROUP 而不是 JOIN 时，有什么优势（性能/没有地图减少）吗？

http://developer.yahoo.com/hadoop/tutorial/module6.html谈论它们产生的输出类型的差异。但是，忽略“输出模式”，性能是否有显着差异？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

两仪 2024-12-12 13:08:42

没有重大的性能差异。我这么说的原因是它们最终都是一个 MapReduce 作业，将相同的数据发送到减速器。两者都需要以外键为键转发所有记录。如果有的话，COGROUP 可能会更快一点，因为它不会对命中进行笛卡尔积，并将它们保存在单独的包中。

如果您的一个数据集很小，您可以使用名为 “复制连接”。这将在所有映射任务中分配第二个数据集并将其加载到主内存中。这样，它可以在映射器中完成整个连接，而不需要减速器。根据我的经验，这是非常值得的，因为连接和联合组的瓶颈是将整个数据集混洗到减速器。据我所知，您无法使用 COGROUP 做到这一点。

回复收藏 0 原文

~没有更多了~

关于作者

此刻的回忆

暂无简介

文章

26 人气

关注发私信

友情链接

文江博客

加入 PIG 对阵 COGROUP

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

琉璃梦幻

qq_4zWU6L

话少情深

西西弗的石头怪

彻夜缠绵

千寻…

友情链接

加入 PIG 对阵 COGROUP

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

琉璃梦幻

qq_4zWU6L

话少情深

西西弗的石头怪

彻夜缠绵

千寻…

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。