如何让倒排索引搜索更快?

发布于 2024-12-28 19:29:33 字数 125 浏览 5 评论 0原文

我正在设计一个全文搜索引擎的架构。要点之一是以很少的响应时间处理大型数据集之间的查询。我能想到的一件事是将倒排索引拆分为分区。有两种策略:基于术语的分区和基于文档的分区。但我真的很想知道是否还有其他方法可以使大型数据集中的倒排搜索更快?

I am designing an architecture of full-text search engine. One of the points is processing queries among large datasets with few response time. One thing I could figure out is that to split the inverted index into partitions. There are 2 strategies for this: term-based partition and document-based partition. But I really want to know if there is any other way to make inverted search faster among large datasets?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

娇俏 2025-01-04 19:29:33

视频是 Shay Banon 的演讲,ElasticSearch 分布式全文搜索引擎的开发者。在视频中,他讨论了基于术语的分区和基于文档的分区的优缺点。

基本上,基于术语的分区会在进程/节点之间产生过多的网络带宽。而且很难很好地实施。基于文档的实施和产生结果极其简单。

此外,在 Jeffrey Dean 的演讲中他还解释了这些差异,并表示 Google 使用基于文档的分区。

这是分发搜索引擎的两种主要方式。我不知道还有其他方法可以做到这一点。无论如何,您可能想在信息检索文献中搜索有关该主题的新颖作品。

This video is a speech with Shay Banon, the developer of ElasticSearch a distributed full-text search engine. In the video he discusses the pros and cons of term-based partition and document-based partition.

Basically, term-based partition produces too much network bandwidth between processes/nodes. And it is harder to implement nicely. Document-based is extremely simpler to implement and produce results.

Moreover, in this lecture by Jeffrey Dean he also explains the differences and says that Google uses document-based partition.

This is the two main ways to distribute your search engine. I'm not aware of other ways of doing it. Anyway you may want to search the Information Retrieval literature for novel work on the subject.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文