在 Lucene 中,我可以搜索一个索引但使用另一个索引中的 IDF 吗?
我正在构建一个系统,我只想显示过去几天索引的结果。 此外,如果我只想返回几天的结果(数千个文档),我不想维护包含一百万个文档的巨型索引。 另一…
Java API:下载并计算给定网页的 tf-idf
我是红外技术的新手。 我正在寻找一个基于 Java 的 API 或工具来执行以下操作。 下载给定的一组 URL 提取标记 删除停用词 执行词干分析 创建倒排索引 …
卢塞恩。如何构建术语-文档矩阵
我需要构建该矩阵,但我找不到计算每个单元格标准化 tf-idf 的方法。 我要执行的标准化是除 tf-idf 的余弦标准化(使用 DefaultSimilarity )每 1/sq…
计算 Lucene 文档之间的相似度和质心
为了对从 Lucene 获得的结果执行简单的聚类算法,我必须计算 Lucene 中两个文档之间的余弦相似度,我还需要能够制作一个质心文档来表示每个聚类的质心…