文本挖掘 - 从非结构化文本中提取乐队名称

发布于 2024-11-19 11:57:10 字数 1435 浏览 7 评论 0原文

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

原来分手还会想你 2024-11-26 11:57:10

由于数据的结构,预先训练的模型可能表现不佳。此外,一般的组织位置人员类别可能对您没有用处。

我不认为文本本身太小,大多数 NER 系统一次只处理一个句子。因此,为您自己的训练集提供 NER 库可能会效果很好,例如 http://nlp .stanford.edu/ner/index.shtml

如果您不想创建训练集,您将需要一本包含所有乐队/艺术家的字典。那么你显然找不到不知名的乐队/艺术家。

Because of the structure of your data a pre-trained model will probably perform poorly. Besides, the general organization, location, and person categories will probably not be useful for you.

I don't think the text themselves are too small, most NER-systems work on one sentence at a time. So providing your own training set with a NER-library will probably work well, such as http://nlp.stanford.edu/ner/index.shtml

If you don't want to create a training set you will need a dictionary with all the bands/artists. Then you obviously can't find unknown bands/artists.

等风来 2024-11-26 11:57:10

有一个简单的 NER 算法可以稍微简化任务:
获取可能是(或不是)命名实体的单词,并在 Google 或 Yahoo(通过 API)中搜索它们两次:作为单独的单词和作为精确短语(即带引号)。除以结果数。存在确定单词是否形成命名实体的阈值(<30)。

There is simple NER algorithm that could simplify the task a bit:
take the words which may be (or not be) named entity and search for them in Google or Yahoo (via API) twice: as separate words and as exact phrase (i.e. with quotation marks). Divide numbers of results. There is threshold (<30) which determines if words form a named entity.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文