当前位置：文江博客话题详情

将相似的文档分组

发布于 2024-11-08 17:16:23 字数 388 浏览 14 评论 0原文

该问题涉及信息检索中类似文档的分组/聚类。

我有一组文档，D1，D2，.. Dn。对于每个文档 Di，我还有一组关键字，Di_k1，Di_k2，...，Di_km。两个文档 Di 和 Dj 之间的相似度由涉及相关关键字的函数给出，即相似度（Di，Dj）= f（Di_K，Dj_K）。

现在，我想将这些文档中的每一个放入一组组/集群中，以便每个集群对于集群中存在的元素之间给定的相似性阈值包含相似类型的文档。

一种简单的方法是查看每一对可能的页面，这显然是我想要避免的，因为我拥有的文档数量相当大，有数百万。我正在阅读《信息检索简介》一书，但没有发现任何提到的可扩展算法。

我的问题是什么样的算法可以帮助我有效地对文档进行聚类？我对算法的计算复杂度特别感兴趣。

预先感谢您的任何指点。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

稚气少女 2024-11-15 17:16:23

好吧，我突然想到，您可以使用基于语言模型的方法。首先，使用机器学习为每个可能的类别构建 LM。比如说，一个二元组 LM。然后，对于您看到的每个新文档，计算所有类的 P(新文档|类)。选择概率最大的那个。使用贝叶斯法则简化上面的公式

回复收藏 0 原文

情未る 2024-11-15 17:16:23

一是放松集群中所有文档之间的相似性。选取任意一个中心并且与中心具有相似性。

复杂度为

(n / avgClusterSize) * (n / 2)

回复收藏 0 原文

~没有更多了~

关于作者

诺曦

暂无简介

文章

27 人气

关注发私信

友情链接

文江博客

将相似的文档分组

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

十二

飞烟轻若梦

OPleyuhuo

wxb0109

旧城空念

-小熊_

友情链接

将相似的文档分组

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

十二

飞烟轻若梦

OPleyuhuo

wxb0109

旧城空念

-小熊_

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。