Lucene 中查询和文档之间的余弦相似度
我想获得长查询和集合中的文档之间的余弦相似度。我使用 Lucence 来索引集合并提交查询来检索文档。 但是,对于某些查询,我收到以下错误。 "Caused b…
Python和tfidf算法,让它更快吗?
我正在使用 Python 在 Web 应用程序中实现 tf-idf 算法,但是它运行速度非常慢。我基本上做的是: 1)创建2个字典: 第一个字典:键(文档ID),值(…
如何使用 TF-IDF 权重对相关性进行排名?
我有一组关键术语,并计算了 TF-IDF 权重以及每个术语的标签频率和术语计数,并保存在数据库中。 给定一个单数术语,如何使用这些 DB 值生成一组相关…
返回向量空间模型中表示的相似文档的算法
我有一个包含大约 30,000 个文档的 tf-idf 向量的数据库。 我想为给定的文档返回一组类似的文档 - 大约 4 个左右。 我考虑过在数据上实现 K-Means(聚…
在 Lucene 中,我可以搜索一个索引但使用另一个索引中的 IDF 吗?
我正在构建一个系统,我只想显示过去几天索引的结果。 此外,如果我只想返回几天的结果(数千个文档),我不想维护包含一百万个文档的巨型索引。 另一…
Java API:下载并计算给定网页的 tf-idf
我是红外技术的新手。 我正在寻找一个基于 Java 的 API 或工具来执行以下操作。 下载给定的一组 URL 提取标记 删除停用词 执行词干分析 创建倒排索引 …