用于命名实体识别的免费标记语料库

发布于 2024-09-11 00:15:53 字数 1536 浏览 7 评论 0原文

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

沦落红尘 2024-09-18 00:15:53

http://www.cs 中有一个语料库列表。 technion.ac.il/~gabr/resources/data/ne_datasets.html

该列表中的 CoNLL 2003 语料库是免费的,可从 http://www.cnts.ua.ac.be/conll2003/ner/(注释)和 NIST(文本)。

There's a list of corpora at http://www.cs.technion.ac.il/~gabr/resources/data/ne_datasets.html

The CoNLL 2003 corpus, which is on that list, is free and is available from http://www.cnts.ua.ac.be/conll2003/ner/ (annotations) and NIST (text).

顾忌 2024-09-18 00:15:53

Python NLTK 可以访问 nltk.corpus.conll2000 语料库。调用 conll2000.iob_words() 会返回(单词、词性、IOB)三元组列表,其中 IOB 是 Inside-entity/Outside-entity/Beginning-of-entity 中的标签格式。

新闻专线风格的上下文中总共约有 25 万个单词。

The Python NLTK has access to the nltk.corpus.conll2000 corpus. Calling conll2000.iob_words() returns a list of (word, part-of-speech, IOB) triples, where IOB is a tag in the Inside-entity/Outside-entity/Beginning-of-entity format.

There are about 250k total words in a newswire-style context.

临走之时 2024-09-18 00:15:53

dbPedia开放且免费的

dbPedia 是根据 WikiPedia 构建的,并且这是一个非常大的语料库。在所有 dbPedia 标题转储rdfs:label 的三元组上构建 Lucene 索引一个>。

dbPedia is open and free

dbPedia is built from WikiPedia and it is a very big corpus. Build an Lucene index on triples involving rdfs:label on all dbPedia titles dump.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文