Solr 索引、搜索词干

发布于 2025-01-08 10:24:13 字数 202 浏览 0 评论 0原文

我有一个问题,我在一组员工记录上有一个索引。 全文索引基于人员的姓名和职位。

我可以毫无问题地搜索像“john”这样的名字,以及像“anthon”这样的名字的一部分并且有效。

但是,某些名称无法正确搜索,例如“anthony”不返回任何结果,但“anth”返回所有 anthony 的名称。同样,搜索“carly”不会返回任何结果,但搜索“car”却会返回。

I have an issue where I have an index on a set of staff records.
The full text index is based on the person's name and position.

I can search for a name like "john" without an issue, and part of a name like "anthon" and that works.

However, some names won't search correctly such as "anthony" returns no results, but "anth" returns all anthony's. Like wise searching for "carly" returns nothing, but "car" does.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

可爱咩 2025-01-15 10:24:13

正如 Maurico 评论的那样,不建议对人名进行词干提取。
词干提取会导致很多意想不到的结果,至少对于人名来说是这样。

另外,检查您的 schema.xml 和应用的字段分析也会很有趣。

如果您在索引和查询时使用不同的分析,则可能会出现此问题。

来自 http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters#Analyzers

分析器是在索引时预处理输入文本的组件
和/或在搜索时。使用相同或相似的内容很重要
在索引和查询处以兼容方式处理文本的分析器
时间。例如,如果索引分析器将单词小写,则
查询分析器应该执行相同的操作来查找索引词。

从您提到的示例来看,您似乎在索引时在字段上有 Stemmer,但是在查询时分析时似乎不存在相同的情况。

As Maurico commented, Stemming is not recommended for Person names.
Stemming would cause a lot of unexpected results atleast for person names.

Also, it would be interesting to check your schema.xml and the field analysis applied.

This issue can occur if your are using different analysis at index and query time.

From http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters#Analyzers

Analyzers are components that pre-process input text at index time
and/or at search time. It's important to use the same or similar
analyzers that process text in a compatible manner at index and query
time. For example, if an indexing analyzer lowercases words, then the
query analyzer should do the same to enable finding the indexed words.

From the example you mentioned, you seem to have Stemmer on the field at index time however the same does not seem to exist at query time analysis.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文