当前位置：文江博客话题详情

tf-idf 和以前未见过的术语

发布于 2024-07-07 06:40:48 字数 198 浏览 14 评论 0原文

TF-IDF（术语频率 - 逆文档频率）是信息检索的主要内容。但这不是一个合适的模型，当新术语引入语料库时，它似乎就会崩溃。当查询或新文档有新术语时，尤其是频率很高的情况下，人们如何处理。在传统的余弦匹配下，这些不会对总匹配产生影响。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

我纯我任性 2024-07-14 06:40:48

呃，不，不会崩溃。

假设我有两个文件，A“黄鼠狼山羊”和B“奶酪地鼠”。如果我们实际上将它们表示为向量，它们可能看起来像：

A [1,1,0,0]
B [0,0,1,1]

如果我们已经在索引文件中分配了这些向量，是的，当需要添加新术语时我们就会遇到问题。但它的技巧是，那个向量永远不存在。关键是倒排索引。

至于不影响余弦匹配的新术语，这可能是正确的，具体取决于您的意思。如果我使用查询“marmoset kungfu”搜索我的 (A,B) 语料库，则语料库中既不存在狨猴也不存在 kungfu。因此，代表我的查询的向量将与集合中的所有文档正交，并获得不好的余弦相似度得分。但考虑到没有一个条款匹配，这似乎很合理。

回复收藏 0 原文