语料库资源
我正在设计一个自动文本摘要器。 该项目的主要模块之一需要TRAINING CORPUS。 有人可以通过提供培训语料库或引用一些下载链接来帮助我吗? 感谢期待
I am designing an Automatic text summarizer. One of the major modules in this project requires TRAINING CORPUS. Can someone please help me out by providing TRAINING CORPUS or referring some link to download it. Thanks in anticipation
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(4)
请参阅 Norvig 的如何编写拼写校正器。 他提到了古腾堡计划、维基词典,英国国家语料库< /a>, 伯克贝克拼写错误语料库。 还有布朗语料库。
See How to Write a Spelling Corrector by Norvig. He mentions Project Gutenberg, Wiktionary, British National Corpus, Birkbeck spelling error corpus. There's also Brown Corpus.
这里有一些文本摘要资源,包括语料库。
斯坦福 NLP/语料库语言学资源列表也可能有所帮助。
Here are some Text summarization resources, including corpora.
The Stanford list of NLP/Corpus linguistics resources may also help.
另请参阅 Corpora 邮件列表,它们是一个很好的起点,您也可以查看他们的邮件档案以获取更多资源。
See also the Corpora mailing list, they're a good starting point, and you could also look through their mailing archives for more resources.
不列颠哥伦比亚省会话语料库 -
http://www.cs.ubc.ca/~rjoty/Webpage/resources .htm
您可以从此处下载它。
British Columbia Conversation Corpus -
http://www.cs.ubc.ca/~rjoty/Webpage/resources.htm
You can download it from here.