当前位置：文江博客话题详情

返回向量空间模型中表示的相似文档的算法

发布于 2024-11-16 14:53:23 字数 256 浏览 6 评论 0原文

我有一个包含大约 30,000 个文档的 tf-idf 向量的数据库。

我想为给定的文档返回一组类似的文档 - 大约 4 个左右。

我考虑过在数据上实现 K-Means（聚类算法）（具有余弦相似度），但由于存在许多不确定性，我不知道这是否是最佳选择：我不确定要在初始聚类中放入什么，我不知道要创建多少个集群，我担心集群会太不平衡，我不确定结果质量会很好等等。

经验丰富的用户的任何建议和帮助将不胜感激。

谢谢你，

凯蒂

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

陌生 2024-11-23 14:53:23

我想为给定文档返回一组类似的文档 - 大约 4 个左右。

那么就不要做k-means。只需通过 tf-idf 相似度返回四个最接近的文档，就像任何搜索引擎都会做的那样。您可以将其实现为 k 最近邻搜索，或者通过安装搜索引擎库并使用初始文档作为查询来更轻松地实现。我想到了 Lucene。

回复收藏 0 原文

氛圍 2024-11-23 14:53:23

如果我理解，您

从更大的数据库读取 30k 记录到缓存文件/到内存
余弦相似度，10 个术语 * 30k 记录 ->最好 4.

你能分别估计这些阶段的运行时间吗？

读取或缓存：多久执行一次，
30k 个向量总共有多大？
10 * 30k 乘加：在您的 c / java / ... 或某些不透明的数据库中？
在 c 或 java 中，应该采用 < 1秒。

一般来说，进行一些粗略的估计
在变得花哨之前。

（顺便一提，
我发现 best-4 在直接 c 中比 std::partial_sort 更快更简单；嗯嗯。）

回复收藏 0 原文

~没有更多了~

关于作者

可可

暂无简介

文章

24 人气

关注发私信

友情链接

文江博客

返回向量空间模型中表示的相似文档的算法

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

饮湿

明月

02

hs1283

风向决定发型

落花浅忆

友情链接

返回向量空间模型中表示的相似文档的算法

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

饮湿

明月

02

hs1283

风向决定发型

落花浅忆

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。