Lucene 不敏感的空白分析器？

发布于 2024-10-13 09:18:53 字数 327 浏览 3 评论 0原文

我使用 lucene 进行搜索，对于标签，我使用空白分析器。看起来它存储得很好。使用标准分析器，我的“C#”搜索将产生 C、C++ 的结果。我尝试过的每个分析器（我没有尝试过所有）都会这样做，除了空白分析器。这很好，除非我搜索 c# 我没有得到任何结果（我使用小写 C 而不是大写）。如果我搜索诸如“Lucene 不敏感空白分析器？”之类的标题，这会很烦人。当它恰好是“Lucene 不敏感空白分析器？”时。（请注意，前 3 个单词以 upper 开头，最后一个单词与我的搜索中一个 upper 和 all lower 的搜索结果不同）。

如何制作不敏感的空白分析器？注意：WhitespaceAnalyzer 是密封的。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

时光倒影 2024-10-20 09:18:53

尝试将 LowerCaseFilter 与 WhitespaceTokenizer 结合使用：

http ://lucene.apache.org/java/3_0_0/api/core/org/apache/lucene/analysis/LowerCaseFilter.html

http://lucene.apache.org/java/3_0_0/api/core/org/apache/lucene/analysis/WhitespaceTokenizer .html

回复收藏 0 原文

十年不长 2024-10-20 09:18:53

您可以创建一个自定义分析器，如下所示（以 Lucene 版本 4.10.4 为例），

import java.io.Reader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.core.LowerCaseFilter;
import org.apache.lucene.analysis.core.WhitespaceTokenizer;

public class CaseInsensitiveWhitespaceAnalyzer extends Analyzer {
    @Override
    protected TokenStreamComponents createComponents(String arg0, Reader arg1) {
            Tokenizer tokenizer = new WhitespaceTokenizer(arg1);
            TokenStream filter = new LowerCaseFilter(tokenizer);
            return new TokenStreamComponents(tokenizer, filter);
    }
}

并且您可以在索引时使用该分析器来配置索引编写器，并在搜索时使用它来创建查询解析器。

You can create a custom analyzer as below (for Lucene version 4.10.4 as an example)

import java.io.Reader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.core.LowerCaseFilter;
import org.apache.lucene.analysis.core.WhitespaceTokenizer;

public class CaseInsensitiveWhitespaceAnalyzer extends Analyzer {
    @Override
    protected TokenStreamComponents createComponents(String arg0, Reader arg1) {
            Tokenizer tokenizer = new WhitespaceTokenizer(arg1);
            TokenStream filter = new LowerCaseFilter(tokenizer);
            return new TokenStreamComponents(tokenizer, filter);
    }
}

And you can use the analyzer to config your index writer when indexing, and also use it to create your query parser when searching.

回复收藏 0 原文

冰魂雪魄 2024-10-20 09:18:53

class CaseInsensitiveWhitespaceAnalyzer : Analyzer
{
    public override TokenStream TokenStream(string fieldName, TextReader reader)
    {
        var tokenizer = new WhitespaceTokenizer(reader);
        var lowercaseFilter = new LowerCaseFilter(tokenizer);

        return new StopFilter(true, lowercaseFilter, StopAnalyzer.ENGLISH_STOP_WORDS_SET, true);
    }
}

这是一个非常适合我的用例的 C# 版本。

class CaseInsensitiveWhitespaceAnalyzer : Analyzer
{
    public override TokenStream TokenStream(string fieldName, TextReader reader)
    {
        var tokenizer = new WhitespaceTokenizer(reader);
        var lowercaseFilter = new LowerCaseFilter(tokenizer);

        return new StopFilter(true, lowercaseFilter, StopAnalyzer.ENGLISH_STOP_WORDS_SET, true);
    }
}

Here's a C# version that works well for my use case.

回复收藏 0 原文

~没有更多了~