我有多种语言的文本文件。如何在NLTK中有选择地删除一种语言?
也许这是不可能的,我应该放弃所有的希望。或者也许有一种我没有想到的非常聪明的方法。 这是我得到的两个例子: 尼亚巴尼亚 - 尼亚萨 (yabisa, yayba…
什么是好的 Python 脏话过滤器库?
Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …
如何将字符串拆分为单词。例如:“stringintowords” -> 《串成文字》?
将字符串拆分为单词的正确方法是什么? (字符串不包含任何空格或标点符号) 例如:“stringintowords”-> “串成单词” 您能建议这里应该使用什么算…
使用 Python/NLTK 提取一组单词,然后将其与标准英语词典进行比较
我有: from __future__ import division import nltk, re, pprint f = open('/home/a/Desktop/Projects/FinnegansWake/JamesJoyce-FinnegansWake.txt…
我在哪里可以找到网络上的原始文本转储?
我希望在我正在编写的程序中进行一些文本分析。我正在寻找原始形式的替代文本源,类似于维基百科转储 (download.wikimedia.com) 中提供的内容。 我宁…