在 Lucene 中获取词干

发布于 2024-10-04 06:06:31 字数 1485 浏览 5 评论 0原文

在 Lucene 中，我使用 SnowballAnalyzer 进行索引和搜索。

当我建立索引后，我会对索引进行查询。例如，我对“body”字段进行“specialized”查询。 IndexSearcher 返回包含“专门化、专门化等”的文档因为 SnowballAnalyzer 进行了词干提取。

现在 - 拥有顶级文档 - 我想从正文字段获取文本片段。此片段应包含查询词的词干版本。
例如，返回的文件之一具有正文字段：“不幸的是，在某些州，盲人只能使用为各种残疾人提供服务的一般康复机构。在这些情况下，无法为视障人士提供专门服务。随时可用。” 然后我希望将“在这些情况下，视觉专业服务”部分作为片段。另外我想从这个片段中获取术语。代码可以做到这一点，但有一个标记为“？”性格，我有一个问题是：

我想怎么做 IndexReader ir = IndexReader.open(fsDir); TermPositionVector tv = (TermPositionVector)ir.getTermFreqVector(hits.scoreDocs[i].doc, "body");

? - 这里：查询 - 查询必须是术语。所以如果真正的查询是“专门化”，那么查询应该是专门化的，这就是雪球分析器通常所做的。我如何获得分析器分析的单个单词或短语的术语，因为查询可以包含短语：“专用机器”。

int idx = tv.indexOf(query); int [] idxs = tv.getTermPositions(idx); for(字符串 t : tv.getTerms()){ int iidx = tv.indexOf(t); int [] iidxs = tv.getTermPositions(iidx); for(int ni : idxs){ tmp值 = 0.0f; for(int nni : iidxs){ if(Math.abs(nni-ni)<= Settings.termWindowSize){

编辑
我找到了获取词干术语的方法：
<代码> Query q = queryParser.parse("要解析的一些文本"); String parsedQuery = q.toString();
查询对象有一个方法 toString(字符串字段名);

原文