当前位置：文江博客话题详情

构建索引时提升 Lucene 术语

发布于 2024-12-27 09:17:42 字数 308 浏览 7 评论 0原文

创建索引时（而不是查询索引时）是否可以确定特定术语比其他术语更重要？

例如，考虑同义词过滤器：
文档 1：“这是一辆好车”
文档 2：“这是一辆不错的车辆”

我想将术语“车辆”添加到第一个文档，将术语“汽车”添加到第二个文档，但我希望，如果稍后使用单词 car 查询索引，那么第一个文档的得分将高于第二个文档，如果查询车辆，则相反。

在将字段添加到各自的文档之前调用 setBoost 可以解决问题吗？

或者也许我应该将同义词添加到不同的字段名称？

还是我从错误的角度看待这个问题？

谢谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

深海少女心 2025-01-03 09:17:42

在字段上设置提升会影响该字段中的所有术语，因此这在您的情况下不起作用。

但使用 Lucene 有效负载（可以为每个术语设置的字节数组）应该是可能的。您可以使用它们来设置特定于术语的增强（例如，对于文档 1，车辆为 0.5）。然后，您将实现自己的 Similarity 并重写 scorePayload() 方法来解码该提升，然后使用 PayloadTermQuery 这允许您为分数基于您在该术语的有效负载中拥有的靴子。