在 Lucene 中使用变音符号索引和搜索法语文本

发布于 2024-09-08 04:18:45 字数 401 浏览 3 评论 0原文

我正在使用 Lucene 搜索。

我上传了一个法语文件(french.txt),内容如下。

multimédia francophone pour l'enseignement du français langue étrangère

如果我搜索 francophone 那么它会在搜索结果中显示该文件。但是,当我搜索 multimédiafrançaisétrangère 时,它没有显示任何结果。

我尝试使用 org.apache.lucene.analysis.fr.FrenchAnalyzer,但它仍然无法正常工作。

我们如何搜索上述的法语单词?

I am using Lucene Search.

I have uploaded a French file (french.txt) with the following content.

multimédia francophone pour l'enseignement du français langue étrangère

If I search for francophone then it shows the file in the search result. But when I search for multimédia or français or étrangère, it does not show any results.

I have tried to use org.apache.lucene.analysis.fr.FrenchAnalyzer, but it is still not working.

How can we search French words such as those above?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

桃扇骨 2024-09-15 04:18:45

您是否在分析器中为该文本索引的字段使用 ISOLatin1AccentFilterFactory?确保如果您有它用于索引分析器,您也有它用于查询分析器。

Do you use a ISOLatin1AccentFilterFactory in the analyzers for the field where this text is indexed? Make sure that if you have it for the index analyzer, you also have it for the query analyzer.

回忆凄美了谁 2024-09-15 04:18:45

顺便提一句。如果您使用 ISOLatin1AccentFilter 请注意,它已被弃用,取而代之的是 ASCIIFoldingFilter

BTW. If you are using ISOLatin1AccentFilter note that it was deprecated in favor of ASCIIFoldingFilter

阳光的暖冬 2024-09-15 04:18:45

基本上,您有 2 个选项:

  1. 使用 Snowball 分析器对法语文件进行索引并搜索法语
  2. 文件 像往常一样对法语文档进行索引,但使用 FuzzyQuery 进行搜索(不是很准确,但在您的特定情况下可能就足够了)。

Basically, you have 2 options:

  1. Index and search your French files with Snowball analyzer for French
  2. Index your French docs as usual, but search with FuzzyQuery (not very accurate, but may be enough in your particular case).
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文