哪里可以获得“idf”词的系数?
我想计算tf-idf权重。因此,为了查找 idf,我需要包含不同文档的大型数据库。然后我用列(字/计数)创建其他数据库。 所以我的问题是“在哪里可以找到“idf”(或计数)单词 coef 的最后一个数据库”? 许多搜索引擎都在使用这个数据库,也许可以在互联网上找到不同语言的这个数据库? 我不想自己制作这个数据库。
I want to calculate tf-idf weight. So, for finding idf I need big database of different documents. Then I have make other db with colums-(word/count).
So my question is "where can I find last database of "idf" (or count) coef for words"?
Many search engines are using this db, maybe it is possible find this db in Internet for different languages?
I don't want to make this db by myself.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
idf 是逆文档频率。换句话说,该项的频率包含在分母中。所以你想要的是词频表。 维基词典:频率列表应该可以帮助您入门。请记住,这些列表将单词的变形形式视为同一个单词,例如 be、is、am、are、...
idf is Inverse Document Frequency. In other words, the frequency of the term goes in the denominator. So what you want are word frequency tables. Wiktionary:Frequency lists should get you started. Keep in mind these lists treat inflected forms of a word as the same word e.g. be, is, am, are, ....