我可以从 NLTK 中的字符串集合创建语料库吗？

发布于 2024-10-09 00:01:56 字数 374 浏览 9 评论 0原文

有没有一种方法可以创建语料库而不必在文件中包含项目。例如，我想操纵我从网络上抓取的推文或段落。我可以做类似

myCorpus = MyCorpus([
    ('id', 'item', 'category'), 
    ('id', 'item', 'category'),
    ('id', 'item', 'category'), 
    ... ])

Or 的

myCorpus.add('id', 'item', 'category')

事情吗？目的是利用现有的 NLTK 功能来操纵语料库。我检查了 TextCollection 但它似乎不处理类别。

原文

Is there a way to create a corpus without having to have items in files. For instance, I want to manipulate Tweets or paragraphs that I am grabbing from the web. Can I do something like

myCorpus = MyCorpus([
    ('id', 'item', 'category'), 
    ('id', 'item', 'category'),
    ('id', 'item', 'category'), 
    ... ])

myCorpus.add('id', 'item', 'category')

The purpose is to manipulate the corpus with existing NLTK capabilities. I checked TextCollection but it seems that it doesn't handle categories.

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

夜还是长夜 2024-10-16 00:01:56

为什么不直接将字符串写入一个或多个文件，然后将它们作为语料库进行处理？

回复收藏 0 原文

~没有更多了~

关于作者

ペ泪落弦音

暂无简介

0 文章

0 评论

24 人气

关注发私信

小瓶盖

文章 0 评论 0

关注

wxsp_Ukbq8xGR

文章 0 评论 0

关注

1638627670

文章 0 评论 0

关注

仅一夜美梦

文章 0 评论 0

关注

夜访吸血鬼

文章 0 评论 0

关注

近卫軍团

文章 0 评论 0

友情链接

文江博客

我可以从 NLTK 中的字符串集合创建语料库吗？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

小瓶盖

wxsp_Ukbq8xGR

1638627670

仅一夜美梦

夜访吸血鬼

近卫軍团

友情链接

我可以从 NLTK 中的字符串集合创建语料库吗？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

小瓶盖

wxsp_Ukbq8xGR

1638627670

仅一夜美梦

夜访吸血鬼

近卫軍团

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。