查询词消除

发布于 2024-11-27 00:35:39 字数 419 浏览 10 评论 0原文

在布尔检索模型中，查询由使用不同运算符组合在一起的术语组成。乍一看，连接是最明显的选择，但是当查询长度增长时，糟糕的事情就会发生。使用合取时，召回率显着下降，使用析取时，查全率显着下降（例如，stanford OR University）。

至于现在我们使用的连接是我们的搜索系统（和布尔检索模型）。如果用户输入一些非常罕见的单词或很长的单词序列，我们就会遇到问题。例如，如果用户输入toyota corolla 4wdautomatic 1995，我们可能没有。但是，如果我们从查询中删除至少一个单词，我们就会得到这样的文档。据我了解，在向量空间模型中这个问题会自动解决。我们不会根据术语存在的事实来过滤文档，而是根据术语的存在对文档进行排名。

因此，我对布尔检索模型中组合术语的更高级方法以及布尔检索模型中罕见术语消除的方法感兴趣。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

不可一世的女人 2024-12-04 00:35:39

在这里定义排名函数似乎没有极限。您可以定义一个向量，其中 wi 为：如果第 i 个搜索词未出现在文件中，则为 0；如果出现，则为 1；搜索词 i 在文件中出现的次数；然后，基于例如曼哈顿距离、欧几里德距离等对页面进行排名，并按降序排序，可能剔除距离低于指定匹配容差的结果。

如果要处理更复杂的查询，可以将查询放入 CNF - 例如 (term1 或 term2 或 ... termn) AND (item1 或 item2 或 ... itemk) AND ...，然后相应地重新定义权重 wi 。您可以在每个结果中列出文件中无法匹配的术语...以便用户至少知道它的匹配程度。

我想我真正想说的是，要真正获得适合您的答案，您必须准确定义您愿意接受的有效搜索结果。根据严格的解释，如果缺少任何一项，则查找 A1 和 A2 以及...Am 应该会失败...

回复收藏 0 原文

~没有更多了~