以编程方式安装 NLTK 语料库/模型,即无需 GUI 下载器?
我的项目使用NLTK。如何列出项目的语料库和项目?型号要求,以便它们可以自动安装?我不想点击 nltk.download()
GUI,一一安装软件包。
另外,有什么方法可以冻结相同的需求列表(例如pip freeze
)?
My project uses the NLTK. How can I list the project's corpus & model requirements so they can be automatically installed? I don't want to click through the nltk.download()
GUI, installing packages one by one.
Also, any way to freeze that same list of requirements (like pip freeze
)?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
发布评论
评论(4)
除了已经提到的命令行选项之外,您还可以通过向 download()
函数添加参数,以编程方式在 Python 脚本中安装 NLTK 数据。
请参阅 help(nltk.download)
文本,具体如下:
可以通过调用``download()``来下载单个包 具有单个参数的函数,给出包标识符 需要下载的包: >>>>>下载('treebank') # doctest: +SKIP [nltk_data] 正在下载包“treebank”... [nltk_data] 解压 corpora/treebank.zip。
我可以确认这适用于一次下载一个包,或者在传递 list
或 tuple
时。
>>> import nltk
>>> nltk.download('wordnet')
[nltk_data] Downloading package 'wordnet' to
[nltk_data] C:\Users\_my-username_\AppData\Roaming\nltk_data...
[nltk_data] Unzipping corpora\wordnet.zip.
True
您也可以尝试下载已下载的软件包,不会出现任何问题:
>>> nltk.download('wordnet')
[nltk_data] Downloading package 'wordnet' to
[nltk_data] C:\Users\_my-username_\AppData\Roaming\nltk_data...
[nltk_data] Package wordnet is already up-to-date!
True
此外,该函数似乎返回一个布尔值,您可以使用该值来查看下载是否成功:
>>> nltk.download('not-a-real-name')
[nltk_data] Error loading not-a-real-name: Package 'not-a-real-name'
[nltk_data] not found in index
False
NLTK 站点在此页面底部列出了用于下载软件包和集合的命令行界面:
http://www.nltk.org/data nltk.org/data
命令行的使用情况因您使用的 Python 版本而异,但在我的 Python2.6 安装中,我注意到我缺少“spanish_grammar”模型,这工作得很好:
python -m nltk.downloader spanish_grammars
您提到列出了项目的语料库和模型要求,虽然我不确定是否有办法自动做到这一点,但我想我至少会分享这一点。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
安装所有 NLTK 语料库和models:
则可以使用:
或者,在 Linux 上,如果您只想列出最流行的语料库和模型, 将
all
替换为popular
。模型。您还可以浏览语料库和通过命令行模型:
To install all NLTK corpora & models:
Alternatively, on Linux, you can use:
Replace
all
bypopular
if you just want to list the most popular corpora & models.You may also browse the corpora & models through the command line: