在 Lucene 中,我可以搜索一个索引但使用另一个索引中的 IDF 吗?
我正在构建一个系统,我只想显示过去几天索引的结果。 此外,如果我只想返回几天的结果(数千个文档),我不想维护包含一百万个文档的巨型索引。 另一…
Java API:下载并计算给定网页的 tf-idf
我是红外技术的新手。 我正在寻找一个基于 Java 的 API 或工具来执行以下操作。 下载给定的一组 URL 提取标记 删除停用词 执行词干分析 创建倒排索引 …
卢塞恩。如何构建术语-文档矩阵
我需要构建该矩阵,但我找不到计算每个单元格标准化 tf-idf 的方法。 我要执行的标准化是除 tf-idf 的余弦标准化(使用 DefaultSimilarity )每 1/sq…
计算 Lucene 文档之间的相似度和质心
为了对从 Lucene 获得的结果执行简单的聚类算法,我必须计算 Lucene 中两个文档之间的余弦相似度,我还需要能够制作一个质心文档来表示每个聚类的质心…
从 lucene 索引查询中获取向量空间模型 (tf-idf)
我需要从 lucene 查询的结果中获取向量空间模型(带有 tf-idf 权重),但不知道该怎么做。看起来应该很简单,在这个阶段也许你们中的一个人可以给我指…
将文档添加到评分的 TF-IDF 集合中?
我有大量已计算 TF-IDF 的文档。我正准备向集合中添加更多文档,我想知道是否有一种方法可以将 TF-IDF 分数添加到新文档中,而无需重新处理整个数据库…