当前位置：文江博客话题详情

如何处理这个命名实体分类任务？

发布于 2024-12-17 06:02:07 字数 881 浏览 0 评论 0原文

我正在问一个相关的问题这里，但这个问题更普遍。我获取了一个大型语料库，并用它们的命名实体注释了一些单词。就我而言，它们是特定于领域的，我将它们称为：实体、操作、事件。我想使用它们作为提取更多命名实体的种子。例如，下面是一个句子：

当机器人出现技术故障时，物体被抛出，但后来被另一个机器人接住。

被标记为：

当（机器人）/实体发生（技术故障）/事件时， （对象）/实体曾（抛出）/动作，但后来被（捕获）/动作 （另一个机器人）/实体。

给定这样的例子，我是否可以训练分类器来识别新的命名实体？例如，给出这样的句子：

纳米机器人有一个错误，所以它撞到了墙上。

应该像这样标记：

（纳米机器人）/实体发生了（错误）/事件，因此它（崩溃）/操作进入了 （墙）/实体。

当然，我知道 100% 的准确性是不可能的，但我有兴趣了解任何正式的方法来做到这一点。有什么建议吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

是伱的 2024-12-24 06:02:07

这根本不是命名实体识别，因为所有标记部分都不是名称，因此 NER 系统的特征集对您没有帮助（英语 NER 系统往往非常依赖大写，并且更喜欢名词）。这是一种信息提取/语义解释。我怀疑这在机器学习环境中会非常困难，因为您的注释确实不一致：

当（机器人）/实体发生（技术故障）/事件时，（对象）/实体被（抛出）/动作，但后来被另一个机器人（抓住）/动作。

为什么“另一个机器人”没有注释？

如果你想解决这类问题，你最好从一些正则表达式开始，也许可以与字符串的 POS 标记版本进行匹配。

回复收藏 0 原文

终陌 2024-12-24 06:02:07

我可以想到两种方法。

首先是句子中单词的模式匹配。像这样的东西（伪代码，尽管它类似于 NLTK 块解析器语法）：

<some_word>+ (<NN|NNS>) <have|has|had> (<NN|NNS>) 
<NN|NNS> (<VB>|was <VB>) (<and|but> (<VB>|was <VB>))* <into|onto|by> (<NN|NNS>)

这 2 个模式可以（大致）捕获第一句话的 2 个部分。如果你的句子种类不多，这是一个不错的选择。我相信通过精心选择的模式可以达到 90% 的准确率。缺点是该模型难以扩展/修改。

另一种方法是挖掘句子中单词之间的依赖关系，例如使用斯坦福依存解析器。除此之外，它还允许挖掘宾语、主语和谓语，这看起来与您想要的非常相似：在您的第一句话中，“机器人”是主语，“had”是谓语，“glitch”是宾语。

I can think of 2 approaches.

First is pattern matching over words in sentence. Something like this (pseudocode, though it is similar to NLTK chunk parser syntax):

<some_word>+ (<NN|NNS>) <have|has|had> (<NN|NNS>) 
<NN|NNS> (<VB>|was <VB>) (<and|but> (<VB>|was <VB>))* <into|onto|by> (<NN|NNS>)

These 2 patterns can (roughly) catch 2 parts of your first sentence. This is a good choice if you have not very much kinds of sentences. I believe it is possible to get up to 90% accuracy with well-chosen patterns. Drawback is that this model is hard to extend/modify.

Another approach is to mine dependencies between words in sentence, for example, with Stanford Dependency Parser. Among other things, it allows to mine object, subject and predicate, that seems very similar to what you want: in your first sentence "robot" is subject, "had" is predicate and "glitch" is object.

回复收藏 0 原文

~没有更多了~