用于查找给定文档的词频的 Python 脚本

发布于 2024-12-05 08:10:49 字数 79 浏览 1 评论 0原文

我正在寻找一个简单的脚本,可以找到给定文档的单词频率(可能通过使用便携式词干分析器)。

是否有任何库或简单的脚本可以执行此过程?

I am looking for a simple script that can find frequencies of words for a given document (probably by using portable stemmer).

Is there any library or simple script that does this process?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

梅窗月明清似水 2024-12-12 08:10:50

使用 nltk

import nltk

YOUR_STRING = "Your words"

words = [w for w in YOUR_STRING.split()]
freq_dist = nltk.FreqDist(words)

tokens = freq_dist.keys()

#50 most frequent
most_frequent = tokens[:50]

#50 least frequent
least_frequent = tokens[-50:]

use nltk

import nltk

YOUR_STRING = "Your words"

words = [w for w in YOUR_STRING.split()]
freq_dist = nltk.FreqDist(words)

tokens = freq_dist.keys()

#50 most frequent
most_frequent = tokens[:50]

#50 least frequent
least_frequent = tokens[-50:]
溺渁∝ 2024-12-12 08:10:50

你应该能够数字数。使用 collections.Counterdict,具体取决于您的需要。这部分很简单,但如果不是,你可以通过搜索 SO 本身找到答案。

我想你还想要 Porter Stemmer,它有一个 Python 版本,位于 http://tartarus.org /~martin/PorterStemmer/python.txt

You should be able to count words. Use a collections.Counter or a dict, depending on what you need. That part is easy, but if it isn't you can find the answer by searching on SO itself.

I think you also want the Porter Stemmer, which has a Python version at http://tartarus.org/~martin/PorterStemmer/python.txt

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文