我可以从 NLTK 中的字符串集合创建语料库吗?
有没有一种方法可以创建语料库而不必在文件中包含项目。例如,我想操纵我从网络上抓取的推文或段落。我可以做类似
myCorpus = MyCorpus([
('id', 'item', 'category'),
('id', 'item', 'category'),
('id', 'item', 'category'),
... ])
Or 的
myCorpus.add('id', 'item', 'category')
事情吗?目的是利用现有的 NLTK 功能来操纵语料库。我检查了 TextCollection
但它似乎不处理类别。
Is there a way to create a corpus without having to have items in files. For instance, I want to manipulate Tweets or paragraphs that I am grabbing from the web. Can I do something like
myCorpus = MyCorpus([
('id', 'item', 'category'),
('id', 'item', 'category'),
('id', 'item', 'category'),
... ])
Or
myCorpus.add('id', 'item', 'category')
The purpose is to manipulate the corpus with existing NLTK capabilities. I checked TextCollection
but it seems that it doesn't handle categories.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
为什么不直接将字符串写入一个或多个文件,然后将它们作为语料库进行处理?
Why not just write the strings out to a file or files and then process them as a corpus?