当前位置：文江博客话题详情

如何在倒排索引结构中搜索短语查询？

发布于 2024-08-29 02:42:35 字数 299 浏览 9 评论 0原文

如果我们想在倒排索引结构中搜索像“t1 t2 t3”这样的查询（t1，t2，t3必须排队），我们应该采取哪些措施？

1-首先我们搜索 "t1" 术语并找到包含 "t1" 的所有文档，然后对 "t2" 和 "t3" 执行此操作。然后找到“t1”、“t2”和“t3”位置彼此相邻的文档。

2-首先我们搜索“t1”术语并找到包含“t1”的所有文档，然后在我们找到的所有文档中搜索“t2”，接下来，在结果中，我们找到包含“t3”的文档”。

我有一个完整的倒排索引。我想知道上面哪种方式是优化的，（1）还是（2）？

多谢。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

溺深海 2024-09-05 02:42:35

正如 wikipedia 条目很好地解释的那样，

有两个主要变体
倒排索引：创纪录水平
倒排索引（或倒排文件索引
或者只是倒排文件）包含一个列表
每个文档的参考文献
单词。 字级倒排索引（或
完整倒排索引或倒排列表）
另外还包含以下位置
文档中的每个单词。这
后一种形式提供了更多功能
（如短语搜索），但需要更多
时间和空间被创造。

由于您没有告诉我们您有哪种变体，因此我们无法准确回答您的问题，但考虑每种可能性会有所帮助。

打开和搜索文档通常是一项成本高昂的操作，除非您的文档非常小，因此您希望将其最小化 - 而选项 (2) 并不能真正将其最小化。如果您有一个倒排列表，使用选项(1)，您甚至不需要打开任何文档；如果您只有一个倒置文件，您将不可避免地需要打开文档并扫描它们（因为否则您将缺乏确认单词相邻性的信息）——但至少使用选项（1）可以最大限度地减少您必须打开和扫描的文档数量（仅限包含每个单词的文档列表交集中的文档）。

因此，无论哪种情况，选项 (1) 都更有前途（除非您的文档特别小）。