python 中的停用词消除和词干分析器
我有一个有点大的文档,想用 Python 对该文档的单词进行停用词消除和词干处理。有谁知道这些的货架包装吗? 如果没有足够快的代码来处理大型文档也是受欢迎的。 谢谢
I have a somewhat large document and want to do stop-word elimination and stemming on the words of this document with Python. Does anyone know an of the shelf package for these?
If not a code which is fast enough for large documents is also welcome.
Thanks
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
NLTK 支持此功能。
NLTK supports this.
如果由于某种原因您不想使用 NLTK,您可以尝试 PyStemmer。对于停用词,只需下载一个列表(谷歌搜索)并将其过滤掉。
If for some reason you don't want to use NLTK, you can try PyStemmer. For stop words just download a list (google it) and filter them out.