哪里可以获得“idf”词的系数?

发布于 2024-11-16 02:17:18 字数 237 浏览 1 评论 0原文

我想计算tf-idf权重。因此,为了查找 idf,我需要包含不同文档的大型数据库。然后我用列(字/计数)创建其他数据库。 所以我的问题是“在哪里可以找到“idf”(或计数)单词 coef 的最后一个数据库”? 许多搜索引擎都在使用这个数据库,也许可以在互联网上找到不同语言的这个数据库? 我不想自己制作这个数据库。

I want to calculate tf-idf weight. So, for finding idf I need big database of different documents. Then I have make other db with colums-(word/count).
So my question is "where can I find last database of "idf" (or count) coef for words"?
Many search engines are using this db, maybe it is possible find this db in Internet for different languages?
I don't want to make this db by myself.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

策马西风 2024-11-23 02:17:18

idf 是逆文档频率。换句话说,该项的频率包含在分母中。所以你想要的是词频表。 维基词典:频率列表应该可以帮助您入门。请记住,这些列表将单词的变形形式视为同一个单词,例如 be、is、am、are、...

idf is Inverse Document Frequency. In other words, the frequency of the term goes in the denominator. So what you want are word frequency tables. Wiktionary:Frequency lists should get you started. Keep in mind these lists treat inflected forms of a word as the same word e.g. be, is, am, are, ....

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文