当前位置：文江博客话题详情

nlp machine-learning tf-idf similarity

将文档添加到评分的 TF-IDF 集合中？

发布于 2024-09-11 04:11:18 字数 86 浏览 14 评论 0原文

我有大量已计算 TF-IDF 的文档。我正准备向集合中添加更多文档，我想知道是否有一种方法可以将 TF-IDF 分数添加到新文档中，而无需重新处理整个数据库？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（1）

Spring初心 2024-09-18 04:11:19

基本上有两个选项：

仅在需要时计算 tf-idf 分数。添加新文档现在很简单。您所要做的就是更新所有文档的数量、出现标记的文档的数量，并存储新文档的标记出现向量。
定期重新计算您的 tf-idf 向量，可能是在添加 100K 文档或类似内容之后。在这之间，只需使用旧值（所有文档的数量、标记出现的文档数量）。

如果您的集合确实很大，您可能会想要采用第二种方法，因为新文档无论如何都不会改变单词的全局分布。也就是说，最好测试这两种方法并选择最适合您问题的一种。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

27 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

十二

文章 0 评论 0

飞烟轻若梦

文章 0 评论 0

OPleyuhuo

文章 0 评论 0

wxb0109

文章 0 评论 0

旧城空念

文章 0 评论 0

-小熊_

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文