当前位置：文江博客话题详情

information-retrieval tf-idf

多个文档的 IDF 如何不同？

发布于 2024-10-14 15:10:25 字数 173 浏览 13 评论 0原文

我正在使用 LETOR 制作一个信息检索系统。他们使用特遣部队和以色列国防军。我确信 TF 是依赖于查询的。但 IDF 应该是，但是：

“请注意，IDF 是独立于文档的，因此查询下的所有文档都有相同的 IDF 值。”

但这没有意义，因为 IDF 是特征列表的一部分。如何计算每个文档的 IDF？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（2）

梦冥 2024-10-21 15:10:25

IDF 是特定术语的。任何给定术语的 IDF 都是独立于文档的，但 TF 是特定于文档的。

换个说法。
假设我们有 3 个文档。

文档 ID 1
“敏捷的棕色狐狸跳过了懒狗”

doc id 2
“安纳波利斯狡猾的狐狸酒吧位于教堂圈”

文档 ID 3
“位于历史街区中心的教堂圈”

现在如果 IDF 为（文档数量）/（包含术语 t 的文档数量）
那么无论搜索是什么或文档是什么，术语“fox”的 IDF 都是 3/2。所以 IDF 是 t 的函数。

另一方面，TF 是 t 和 d 的函数。因此 doc id 1 的“the”的 TF 是 2。

回复收藏 0 原文

一个人的夜不怕黑 2024-10-21 15:10:25

补充一下 jshen 所说的：

IDF 是衡量您正在搜索的给定语料库中任何特定单词或语法的常见程度的指标。它是对该词的罕见程度及其可能重要性的估计。因此，如果查询包含不常见的单词，则包含该罕见单词的文档应该被判断为更重要。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

26 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

十二

文章 0 评论 0

飞烟轻若梦

文章 0 评论 0

OPleyuhuo

文章 0 评论 0

wxb0109

文章 0 评论 0

旧城空念

文章 0 评论 0

-小熊_

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文