Solr& Sphinx：如何提高相关性？

发布于 2024-11-19 21:56:05 字数 494 浏览 6 评论 0原文

Sphinx 的接近启用排名器使用稍微修改的 BM25 排名器（统计词袋）+ 强烈支持后者的最长单词子串匹配公式，而 Solr 使用一些其他统计排名函数（不是 BM25，但类似）+如果需要的话，可以提升单词二元组（这类似于 LWS 方法）。我认为这两者都没有模拟人类对相关性的看法，即当答案中的单词不一定相邻或顺序相同时，相关性不会急剧下降。

简单示例：

查询：Bob Jones

正文：。。。。琼斯、鲍勃. 。。。（看起来与我相关，但这将回退到仅统计）

- 或 -

正文：。。。。鲍勃·琼斯中名。。。。（相同）

我知道这样做是有代价的，但我不可能是唯一一个注意到如果单词顺序混乱或分开的话，Solr 和 Sphinx 本质上都会退回到词袋统计排名器的人一个词，在某些情况下甚至可能是一个停用词。

想法？如果我想将上述任一情况的排名高于单词仅出现在文档中某处的情况，该怎么办？或者我错了，Solr 或 Sphinx 会这样做吗？

原文

分享到QQ

分享到微博