搜索引擎(例如谷歌的页面排名算法)如何跨分布式/多台机器工作?

发布于 2024-12-05 10:26:57 字数 400 浏览 0 评论 0原文

我是分布式计算的新手,但想知道页面排名算法如何在多台机器上工作。比如

  1. 他们什么时候决定应该复制数据(如果需要的话),

  2. 如果不复制数据,他们会询问吗在其他地方服务给他们结果?

  3. 或者他们是否将“模块”发送到不同的服务(例如巨大的链接图的一部分)到一台服务器,将另一个模块发送到另一台服务器并合并他们收到的结果?或者
  4. 我搜索了一些内容 - 它如何从我的国家/地区获取页面(您知道,仅搜索 <插入国家/地区> 的页面)

这不是家庭作业。只是我有一个问题。我欢迎所有的想法,即使它们非常笼统或非常详细或不能回答我的所有问题。

现在,我几乎一无所知,我希望在看完答案后能知道一些事情。

I am new to distributed computing but was wondering how page ranking algorithm works across multiple machines. Like

  1. When do they decide data should be replicated (if needed at all),

  2. If data is not copied, do they ask serves at other places to give them the result?

  3. Or do they send "modules" to different serves (say part of a HUGE-HUGE - linked-graph) to one server, another module to another server and the combine the results they received?

  4. I search something -- how does it fetches pages from my country (you know, search pages from <insert country> only)

This is not homework. Just a question I had. I welcome all ideas, even if they are very general or very detailed or do not answer all of my questions.

Right now, I know next to nothing, my hope is to know something after going through the answers.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

彡翼 2024-12-12 10:26:57

以下是该架构的一些白皮书

注意:其中一些已经过时了,现在它们正在进行实时更新,这不适用于mapreduce。

Here are some whitepapers of the architecture

Note: some of these are quite outdated, nowadays they are doing live updates, which wouldn't work with mapreduce.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文