当前位置：文江博客话题详情

algorithm search-engine information-retrieval counting

搜索引擎不精确计数（大约 xxx 结果）

发布于 2024-07-05 14:17:23 字数 213 浏览 11 评论 0原文

当你在 Google 中搜索时（我几乎可以肯定 Altavista 也做了同样的事情），它会显示“关于 xxxx 的结果 1-10”...

这一直让我感到惊讶...“关于”是什么意思？
他们如何粗略地数数？
我确实理解为什么他们不能在合理的时间内得出一个精确的数字，但他们是如何达到这个“近似”数字的呢？

我确信这背后有很多我错过的理论......

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（5）

趁年轻赶紧闹 2024-07-12 14:17:23

它很可能类似于大多数 SQL 系统在其查询计划中使用的估计行数排序；表中的行数（确切地知道上次收集统计信息的时间，但通常不是最新的），乘以估计的选择性（通常基于通过对一些小子集进行采样计算出的统计分布模型）行）。

PostgreSQL 手册中有一节介绍规划器使用的统计信息这是相当丰富的信息，至少如果您点击 pg_stats 和其他各个部分的链接。我确信这并没有真正描述谷歌所做的事情，但它至少显示了一个模型，您可以在其中获得前 N 行并估计可能还有多少行。

回复收藏 0 原文

偏爱自由 2024-07-12 14:17:23

与你的问题无关，但让我想起我的一个朋友在进行简单的自我搜索时开的一个小笑话（不要告诉我你从来没有用谷歌搜索过你的名字）。他说了这样的话

“哇，仅仅 0.22 秒就得到了大约 5,000 个结果！现在，想象一下一分钟、一小时、一天内有多少结果！”

回复收藏 0 原文

季末如歌 2024-07-12 14:17:23

我想这个估计是基于统计数据的。他们不会计算所有相关的页面匹配，所以他们（我会）做的是根据一些启发式计算出与查询匹配的页面的大致百分比，然后将其用作计数的基础。

一种启发式方法可能是进行样本计数 - 随机抽取 1000 个左右的页面样本，看看匹配的百分比是多少。不需要太多样本就能得到具有统计显着性的答案。

回复收藏 0 原文

是你 2024-07-12 14:17:23

尚未提及的一件事是重复数据删除。一些搜索引擎（我不确定 Google 具体是如何做到的）将使用启发式方法来尝试确定两个不同的 URL 是否包含相同（或极其相似）的内容，从而得出重复的结果。

如果有 156 个唯一 URL，但其中 9 个已被标记为其他结果的重复项，则更简单地说“大约 150 个结果”，而不是“156 个结果，其中包含 147 个唯一结果和 9 个重复项”。

回复收藏 0 原文

心作怪 2024-07-12 14:17:23

返回准确数量的结果不值得花费大量精力来精确计算。由于知道有 1,004,345 个结果而不是“大约 1,000,000 个”并没有太多增值，因此从最终用户体验的角度来看，更快地返回结果比计算总数的额外时间更重要。

来自谷歌自己：
"Google 对搜索结果总数的计算是估计值。我们知道大概的数字很有价值，通过提供估计值而不是精确的帐户，我们可以更快地返回高质量的搜索结果。”

回复收藏 0 原文

~没有更多了~

关于作者

最偏执的依靠

暂无简介

0 文章

0 评论

700 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

1CH1MKgiKxn9p

文章 0 评论 0

ゞ记忆︶ㄣ

文章 0 评论 0

JackDx

文章 0 评论 0

信远

文章 0 评论 0

yaoduoduo1995

文章 0 评论 0

霞映澄塘

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文