我可以从 NLTK 中的字符串集合创建语料库吗?

发布于 2024-10-09 00:01:56 字数 374 浏览 9 评论 0原文

有没有一种方法可以创建语料库而不必在文件中包含项目。例如,我想操纵我从网络上抓取的推文或段落。我可以做类似

myCorpus = MyCorpus([
    ('id', 'item', 'category'), 
    ('id', 'item', 'category'),
    ('id', 'item', 'category'), 
    ... ])

Or 的

myCorpus.add('id', 'item', 'category')

事情吗?目的是利用现有的 NLTK 功能来操纵语料库。我检查了 TextCollection 但它似乎不处理类别。

Is there a way to create a corpus without having to have items in files. For instance, I want to manipulate Tweets or paragraphs that I am grabbing from the web. Can I do something like

myCorpus = MyCorpus([
    ('id', 'item', 'category'), 
    ('id', 'item', 'category'),
    ('id', 'item', 'category'), 
    ... ])

Or

myCorpus.add('id', 'item', 'category')

The purpose is to manipulate the corpus with existing NLTK capabilities. I checked TextCollection but it seems that it doesn't handle categories.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

夜还是长夜 2024-10-16 00:01:56

为什么不直接将字符串写入一个或多个文件,然后将它们作为语料库进行处理?

Why not just write the strings out to a file or files and then process them as a corpus?

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文