如何使用 Map-Reduce 进行查找（或连接）？

发布于 2024-11-02 23:32:30 字数 341 浏览 9 评论 0原文

如何使用“纯”map-reduce 框架获取输入集

{worker-id:1 name:john supervisor-id:3}
{worker-id:2 name:jane supervisor-id:3}
{worker-id:3 name:bob}

并生成输出集

{worker-id:1 name:john supervisor-name:bob}
{worker-id:2 name:jane supervisor-name:bob}

，即仅具有映射阶段和减少阶段但没有任何额外功能（例如 CouchDB 查找）的框架？

原文

How can I use take the input set

{worker-id:1 name:john supervisor-id:3}
{worker-id:2 name:jane supervisor-id:3}
{worker-id:3 name:bob}

and produce the output set

{worker-id:1 name:john supervisor-name:bob}
{worker-id:2 name:jane supervisor-name:bob}

using a "pure" map-reduce framework, i.e. one with only a map phase and a reduce phase but without any extra feature such as CouchDB's lookup?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

寄人书 2024-11-09 23:32:30

确切的细节取决于您的映射缩减框架。但想法是这样的。在映射阶段，您发出两种类型的键/值对。 (1, {name:john type:boss}) 和 (3, {worker-id:1 name:john type:worker})。在归约阶段，您可以将键的所有值分组在一起。如果其中存在 boss 类型的记录，则删除该记录并填充其他记录的主管姓名。如果没有，那么你就把这些记录扔在地板上。

基本上，您使用数据按键分组然后在reduce 中一起处理来进行连接的事实。

（在某些map-reduce实现中，您逐渐将键/值对放在reduce中。在这些实现中，您不能丢弃还没有boss的记录，因此您最终需要map-reduce-reduce用于最后的过滤步骤。）

回复收藏 0 原文