当前位置：文江博客话题详情

如何在 Python 自然语言工具包中创建自己的语料库？

发布于 2024-08-20 05:01:08 字数 128 浏览 8 评论 0原文

我最近扩展了 nltk 中的姓名语料库，并想知道如何将我拥有的两个文件（male.txt、female.txt）转换为语料库，以便我可以使用现有的 nltk.corpus 方法访问它们。有人有什么建议吗？

非常感谢，詹姆斯.

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

浮光之海 2024-08-27 05:01:08

作为自述文件说，姓名语料库不属于公共领域——您应该向语料库作者发送一封电子邮件，其中包含您所做的任何更改（地址位于该文件中）。除了法律和礼貌的细节之外，您可以简单地用您自己的文件替换其中一个或两个文件，它们的格式非常简单（每行一个名称，允许注释[[并忽略]]并以 开头'#'）。

要安装全新的语料库而不是仅仅调整现有的语料库，您可以从给出的文档开始此处。

回复收藏 0 原文

猫腻 2024-08-27 05:01:08

通过查看 nltk.corpus 中的源代码，然后查看语料库（位于 /home/[user]/nltk_data/corpora/names 中）来了解语料库阅读的工作原理 - 这可能是对于 XP 用户，在“我的文档”中；对于 Win7 用户，在“用户”中的某个位置）。

语料库的结构及其相关功能将有助于更好地理解如何使用 NLTK 中可用的不同语料库。

就我而言，我查看了 nltk.corpus 源代码中的名称变量，并对 WordListCorpusReader 函数感兴趣，因为名称语料库只是一个单词列表。

回复收藏 0 原文

回忆躺在深渊里 2024-08-27 05:01:08

亚历克斯是对的，从文档开始，找出哪个语料库阅读器适合您的语料库。给定语料库文件的路径，简单地实例化它。正如您将在文档中看到的，内置语料库只是特定语料库阅读器类的实例。查看 nltk.corpus 包中的代码应该也会有帮助。

回复收藏 0 原文

~没有更多了~

关于作者

污味仙女

暂无简介

文章

24 人气

关注发私信

友情链接

文江博客

如何在 Python 自然语言工具包中创建自己的语料库？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

lanyue

海螺姑娘

Demos

亢龙有悔

海未深

浅忆流年

友情链接

如何在 Python 自然语言工具包中创建自己的语料库？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

lanyue

海螺姑娘

Demos

亢龙有悔

海未深

浅忆流年

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。