当前位置：文江博客话题详情

非常快的文档相似度

发布于 2024-09-01 10:41:32 字数 550 浏览 12 评论 0原文

我试图尽快确定单个文档与大量文档（n ~= 100 万）中的每个文档之间的文档相似性。更具体地说，我正在比较的文档是电子邮件；它们被分组（即有文件夹或标签），我想确定哪个组最适合新电子邮件。快速的性能至关重要。

我的先验假设是术语向量之间的余弦相似度适合此应用程序；请评论这是否是一个好的措施！

我已经考虑了以下加快性能的可能性：

预规范化所有项向量
计算每个组的项向量 (n ~= 10,000 ) 而不是每封电子邮件 (n ~= 1,000,000)；这对于我的应用程序来说可能是可以接受的，但如果您能想到不这样做的原因，请告诉我！

我有几个问题：

如果一封新电子邮件包含以前任何电子邮件中从未见过的新术语，这是否意味着我需要重新计算我的所有术语向量？这看起来很昂贵。
是否有一些聪明的方法来只考虑可能接近查询文档的向量？
是否有某种方法可以更节省我用于所有这些向量的内存量？

谢谢！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

清风疏影 2024-09-08 10:41:32

使用贝叶斯过滤。提供的链接涉及垃圾邮件过滤，但您可以轻松地使算法适应多个类别/标签。

还有很多关于贝叶斯过滤的好问题SO问题。

回复收藏 0 原文

~没有更多了~

关于作者

你怎么这么可爱啊

暂无简介

文章

25 人气

关注发私信

Promise

文章 0 评论 0

关注

qq_lbRlsh

文章 0 评论 0

关注

待＂谢繁草

文章 0 评论 0

关注

yy2010hell

文章 0 评论 0

关注

漫无边际

文章 0 评论 0

关注

傲娇萝莉攻

文章 0 评论 0

友情链接

文江博客

非常快的文档相似度

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签