用于查找给定文档的词频的 Python 脚本
我正在寻找一个简单的脚本,可以找到给定文档的单词频率(可能通过使用便携式词干分析器)。
是否有任何库或简单的脚本可以执行此过程?
I am looking for a simple script that can find frequencies of words for a given document (probably by using portable stemmer).
Is there any library or simple script that does this process?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
使用 nltk
use nltk
你应该能够数字数。使用
collections.Counter
或dict
,具体取决于您的需要。这部分很简单,但如果不是,你可以通过搜索 SO 本身找到答案。我想你还想要 Porter Stemmer,它有一个 Python 版本,位于 http://tartarus.org /~martin/PorterStemmer/python.txt
You should be able to count words. Use a
collections.Counter
or adict
, depending on what you need. That part is easy, but if it isn't you can find the answer by searching on SO itself.I think you also want the Porter Stemmer, which has a Python version at http://tartarus.org/~martin/PorterStemmer/python.txt