当前位置：文江博客话题详情

从 lucene 索引查询中获取向量空间模型 (tf-idf)

发布于 2024-09-11 23:57:11 字数 490 浏览 20 评论 0原文

我需要从 lucene 查询的结果中获取向量空间模型（带有 tf-idf 权重），但不知道该怎么做。看起来应该很简单，在这个阶段也许你们中的一个人可以给我指出正确的方向。

我已经尝试弄清楚如何做到这一点有一段时间了，要么我还没有意识到我读过的东西是我需要的（很有可能），要么解决方案还没有发布到我的特别的问题。我什至尝试直接根据查询结果自己计算 VSM，但我的解决方案非常复杂。

编辑：对于任何其他偶然发现这一点的人，有一个解决方案@更清晰的问题这里我需要的可以通过 IndexReader.getTermFreqVector(String field, int docid) 方法获得。

不幸的是，这对我不起作用，因为我正在处理的索引没有存储术语频率向量，所以我想我仍在寻找更多帮助！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

栩栩如生 2024-09-18 23:57:11

要回答这个问题，您可以使用 IndexReader.getTermFreqVector() 和 Searcher.docFreq() 类计算一组 lucene 结果的 TF-IDF 加权向量空间模型。 Lucene 中无法直接获取一组结果的 VSM。

回复收藏 0 原文

ヅ她的身影、若隐若现 2024-09-18 23:57:11

也许我误解了你想要做什么，但 Lucene 的评分使用向量空间模型。如果您想了解有关如何在给定文档和查询的情况下计算分数的更多详细信息，请使用 Searcher.explain(Query query, int doc) 。

回复收藏 0 原文

淡笑忘祈一世凡恋 2024-09-18 23:57:11

如果我从您的评论中理解正确，您需要计算文档之间而不是查询和文档之间的 VSM 余弦相似度。我不知道具体如何做到这一点，但我会向您指出 Lucene API 页面的 相似度 类。您可能必须派生并使用 Similarity 的自定义子类来更改 coord 和 queryNorm 成员，并找到一种方法将文档转换为查询对象。

（不保证；我只是想自己算出这个分数。）

回复收藏 0 原文

~没有更多了~