Apache Solr:CompoundWordFilter 的正确使用

发布于 2024-12-01 20:49:23 字数 473 浏览 0 评论 0原文

我正在尝试找出如何为我的应用程序最好地配置 Solr。我正在索引(主要是德语)PDF 文档,并且使用 dismax 查询来查询 Solr。

如果文档包含单词“Firmenprofil”(德语复合词,->“公司简介”),则仅在精确查找该单词的查询中返回该文档。然而,仅包含“Profil”的查询也希望返回该文档。

我下载了一个德语词典文件,并将 DictionaryCompoundWordTokenFilter 应用于索引分析器和查询分析器。

问题是,过滤器将查询分解为非常小部分(例如,“Firmenprofil”中的“pro”,然后导致返回包含“Product”等单词的各种文档...)。

我尝试从查询分析器中删除过滤器,这导致 solr 根本找不到文档。我还尝试保留查询过滤器,但明确将 onlyLongestMatch-选项设置为 true,但这似乎根本没有任何效果。

I'm trying to figure out how to best configure Solr for my app. I'm indexing (mostly german) PDF-Documents, and I'm using dismax queries to query Solr.

If a document contains the word "Firmenprofil" (a german compound word, -> 'company profile'), it will only be returned in queries for exactly that word. However, it would be desirable for queries only containing "Profil" to also return this document.

I downloaded a german dictionary file and applied a DictionaryCompoundWordTokenFilter to both the index- and the query-analyzer.

The Problem is, that the filter decomposes the query into very small parts (e.g. "pro" in the case of "Firmenprofil" which then results in having all sorts of documents that contain words like "Product" returned...).

I tried removing the Filter from the query-analyzer which leads to solr not finding the document at all. I also tried leaving the query-filter in, but explicitly setting the onlyLongestMatch-option to true, but that didn't seem to have any effect at all.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

一绘本一梦想 2024-12-08 20:49:23

好吧,看来我的字典文件太大了(~20mb)。我用一个更紧凑的替换了它,现在它工作得很好......

Ok, seems like my dictionary file was simply too big (~20mb). I replaced it with a more compact one and now it works just fine...

坐在坟头思考人生 2024-12-08 20:49:23

如果没有实际的配置文件,这有点像猜谜游戏。

您检查过配置文件是否是字典的一部分吗?

Without your actual config files, its a bit of a guessing game.

Did you check if profil is part of the dictionary?

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文