当前位置：文江博客话题详情

将未标记语料库转换为标记语料库 (NLTK)

发布于 2024-11-25 16:53:58 字数 87 浏览 4 评论 0原文

我有一个纯文本语料库，我想标记并保存它，以便我可以进一步使用它。最好的方法是什么？

我已经制作了标记器，但我无法找到一种方法来更改不混乱的语料库

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

猫性小仙女 2024-12-02 16:53:58

查看其他标记语料库，例如 Brown，以获取输出示例。这将使您了解标记的语料库应该是什么样子。接下来，加载语料库（使用 PlaintextCorpusReader）并迭代句子，标记每个句子。然后通过从标记句子中创建一个字符串，将每个标记句子写入文件，如 ' '.join([tuple2str(t) for t in tagged_sent]) （在执行 from 之后nltk.tag.util导入tuple2str）。如果您的代码“混乱”也没关系，只要它能正确完成工作即可。您在这里并不是在寻找优雅的算法，而是运行一个非常具体的脚本来创建自定义语料库。

回复收藏 0 原文