当前位置：文江博客话题详情

在哪里可以找到描述特定主题事件的文本？

发布于 2024-12-02 00:01:44 字数 476 浏览 9 评论 0原文

那么，一些背景知识：我正在尝试训练一个机器学习系统来回答有关事件的问题，其中事件描述和问题都是用自然语言提出的；事件描述仅限于单个句子。

到目前为止，主要问题是找到一个语料库，该语料库用足够有限的词汇来描述事件，以便在所有事件中提出类似的问题（例如，如果所有事件都涉及国际象棋，我可以合理地问“哪个棋子移动了？”）可以从相当比例的事件描述句子中得出答案）。

考虑到这一点，我希望找到一个紧紧围绕描述某个相当有限的主题内的事件的文本源（例如，更多地沿着国际象棋评论而不是国际象棋论坛）。

虽然我很幸运地获得了空中交通控制器对话框的语料库，大多数句子都不是典型的英语（它们涉及很多查理、探戈等）。然而，如果格式如我所描述的那样，那么实际的焦点主题是无关紧要的，只要它有一个即可。

由于我计划根据本文构建自己的语料库，因此不需要标记。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

白日梦 2024-12-09 00:01:44

路透社语料库的内容相当单调（商业新闻；CEO任命、并购、重大交易等）；我更熟悉多语言 v2，但 IIRC v1 语料库是单语英语。这些将是多句新闻报道，但根据新闻惯例，您可以期望第一句话构成整个故事的合理要点。 http://about.reuters.com/researchandstandards/corpus/

您还可以查看其他TREC，尤其是 MUC 竞赛材料； http://en.wikipedia.org/wiki/Message_Understand_Conference

回复收藏 0 原文