当前位置：文江博客话题详情

Disco/MapReduce：使用先前迭代的结果作为新迭代的输入

发布于 2024-08-28 00:39:25 字数 499 浏览 10 评论 0原文

目前正在 Disco 上实施 PageRank。作为一种迭代算法，一次迭代的结果用作下一次迭代的输入。

我有一个代表所有链接的大文件，每一行代表一个页面，该行中的值代表它链接到的页面。

对于 Disco，我将此文件分成 N 个块，然后运行 MapReduce 一轮。结果，我得到了一组（页面，排名）元组。

我想将此排名提供给下一次迭代。但是，现在我的映射器需要两个输入：图形文件和页面排名。

我想“压缩”在一起图形文件和页面排名，这样每行代表一个页面，它的排名，它的链接。
由于该图形文件被分成 N 个块，因此我需要将 pagerank 向量分成 N 个并行块，并压缩区域将 pagerank 向量添加到图表中这一切

似乎比必要的更复杂，并且作为一个非常简单的操作（使用典型的映射缩减算法），似乎我错过了关于 Disco 的一些东西，这些东西可以真正简化该方法。

有什么想法吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

过期以后 2024-09-04 00:39:25

看起来您需要在第一次传递中使用 init_map ，然后在后续的每次迭代中使用 iter_map 。

请参阅：http://discoproject.org/doc/faq.html#id7

可以您输出包含外链的 python 对象，而不仅仅是 (page,rank) 元组？

另一种选择是在某处（dict、memcache、kyotocabinet 等）按页面键入外链接，然后从映射函数中查找它们。如果您使用 Disco 链接事物，我认为您不会想在工作流程中将事物压缩在一起。

回复收藏 0 原文

~没有更多了~

关于作者

娇纵

暂无简介

0 文章

0 评论

25 人气

关注发私信

苦中寻乐

文章 0 评论 0

关注

lueluelue

文章 0 评论 0

关注

嗼ふ静

文章 0 评论 0

关注

王权女流氓

文章 0 评论 0

关注

与花如笺

文章 0 评论 0

关注

残酷

文章 0 评论 0

友情链接

文江博客

Disco/MapReduce：使用先前迭代的结果作为新迭代的输入

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

苦中寻乐

lueluelue

嗼ふ静

王权女流氓

与花如笺

残酷

友情链接

Disco/MapReduce：使用先前迭代的结果作为新迭代的输入

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

苦中寻乐

lueluelue

嗼ふ静

王权女流氓

与花如笺

残酷

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。