在NLTK中创建自己的语料库的优势

发布于 2024-10-18 00:40:45 字数 628 浏览 10 评论 0原文

我的 Mysql 表中有大量文本。我想使用 NLTK 工具包对我的文本进行一些统计分析，然后进行一些 NLP。我有两个选择：

从数据库表中一次性提取所有文本（如果需要，可能将它们放入文件中）并使用 NLTK 函数
提取文本并将其转换为可与 NLTK 一起使用的“语料库”。

后者似乎相当复杂，我还没有找到任何实际描述如何使用它的文章我只找到了这个：创建一个 MongoDB 支持的语料库阅读器，使用 MongoDB 作为数据库，代码相当复杂，也需要了解 MongoDB。另一方面，前者看起来非常简单，但会导致从数据库中提取文本的开销。

现在的问题是，NLTK中语料库的优势是什么？换句话说，如果我接受挑战并深入研究覆盖 NTLK 方法以便它可以从 MySQL 数据库中读取数据，那么值得这么麻烦吗？将我的文本转换为语料库是否会给我带来一些我无法（或很难）使用普通 NLTK 函数实现的功能？

另外，如果您知道有关将 MySQL 连接到 NLTK 的信息，请告诉我。谢谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

热情消退 2024-10-25 00:40:45

好吧，读了很多书后我找到了答案。
有几个非常有用的函数，例如搭配、搜索、common_context、similar，可用于在 NLTK 中保存为语料库的文本。自己实施它们需要相当长的时间。如果从数据库中选择我的文本并放入文件中并使用 nltk.Text 函数，那么我可以使用我之前提到的所有函数，而无需编写那么多行代码甚至覆盖方法，以便我可以连接到 MySql。这里是更多信息的链接： nltk.Text

回复收藏 0 原文

~没有更多了~