多个文档的 IDF 如何不同?
我正在使用 LETOR 制作一个信息检索系统。他们使用特遣部队和以色列国防军。 我确信 TF 是依赖于查询的。但 IDF 应该是,但是:
“请注意,IDF 是独立于文档的,因此查询下的所有文档都有 相同的 IDF 值。”
但这没有意义,因为 IDF 是特征列表的一部分。如何计算每个文档的 IDF?
I am using LETOR to make an information retrieval system. They use TF and IDF.
I am sure TF is query-dependent. But IDF should be to, but:
"Note that IDF is document independent, and so all the documents under a query have
same IDF values."
But that does not make sense because IDF is part of the feature list. How will IDF for each document be calculated?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
IDF 是特定术语的。任何给定术语的 IDF 都是独立于文档的,但 TF 是特定于文档的。
换个说法。
假设我们有 3 个文档。
文档 ID 1
“敏捷的棕色狐狸跳过了懒狗”
doc id 2
“安纳波利斯狡猾的狐狸酒吧位于教堂圈”
文档 ID 3
“位于历史街区中心的教堂圈”
现在如果 IDF 为(文档数量)/(包含术语 t 的文档数量)
那么无论搜索是什么或文档是什么,术语“fox”的 IDF 都是 3/2。所以 IDF 是 t 的函数。
另一方面,TF 是 t 和 d 的函数。因此 doc id 1 的“the”的 TF 是 2。
IDF is term specific. The IDF of any given term is document independent, but the TF is document specific.
To say it differently.
Let's say we have 3 documents.
doc id 1
"The quick brown fox jumps over the lazy dog"
doc id 2
"The Sly Fox Pub Annapolis is located on church circle"
doc id 3
"Located on Church Circle, in the heart of the Historic District"
Now if IDF is (number of documents) / (number of documents containing term t)
then the IDF for the term fox is 3/2 regardless of what the search is or what the document is. So IDF is a function of t.
TF on the other hand is a funciton on t and d. So the TF of 'the' for doc id 1 is 2.
补充一下 jshen 所说的:
IDF 是衡量您正在搜索的给定语料库中任何特定单词或语法的常见程度的指标。它是对该词的罕见程度及其可能重要性的估计。因此,如果查询包含不常见的单词,则包含该罕见单词的文档应该被判断为更重要。
To add to what jshen said:
IDF is a measure of how common any particular word or gram is in the given corpus that you are searching. It is an estimate of how rare that word is and thus its likely importance. So if a query contains an uncommon word, documents containing that rare word should be judged to be more important.