当前位置：文江博客话题详情

计算 Lucene 文档之间的相似度和质心

发布于 2024-09-13 19:56:03 字数 230 浏览 14 评论 0原文

为了对从 Lucene 获得的结果执行简单的聚类算法，我必须计算 Lucene 中两个文档之间的余弦相似度，我还需要能够制作一个质心文档来表示每个聚类的质心。

我能想到的就是使用 tf-idf 加权构建我自己的向量空间模型，使用 TermFreqVectors 和整体项频率来填充它。

我的问题是：这不是一个有效的方法，有更好的方法吗？

这感觉有点不清楚，因此也欢迎任何关于如何改进我的问题的建议。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

我不吻晚风 2024-09-20 19:56:03

马克，你可能会发现将 Mahout 与 Lucene 集成，使用 Java 进行 IR 数学或使用 Lucene 的向量空间分类器很有用。

回复收藏 0 原文

铁轨上的流浪者 2024-09-20 19:56:03

简短的回答是：不。

我花了很多时间（太多了）研究这个问题，据我所知，您可以创建自己的向量空间模型并从中工作，或者使用 Mahout 来生成Mahout 向量，您可以从中进行文档之间的比较。我要继续做我自己的，所以我将这个问题标记为已回答！

回复收藏 0 原文

烟─花易冷 2024-09-20 19:56:03

为了获得一个文档与另一个文档的相似性，为什么不使用一个文档的内容进行一个查询并针对索引运行查询？
这样，您将获得分数（余弦相似度值）

回复收藏 0 原文

~没有更多了~

关于作者

芸娘子的小脾气

暂无简介

文章

28 人气

关注发私信

十二

文章 0 评论 0

关注

飞烟轻若梦

文章 0 评论 0

关注

OPleyuhuo

文章 0 评论 0

关注

wxb0109

文章 0 评论 0

关注

旧城空念

文章 0 评论 0

关注

-小熊_

文章 0 评论 0

友情链接

文江博客

计算 Lucene 文档之间的相似度和质心

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者