可以使用 Lingpipe 提取除 People、Org 和 Loc 之外的通用实体吗？

发布于 2024-12-06 07:12:40 字数 220 浏览 9 评论 0原文

我读过 Lingpipe for NLP，发现我们有能力识别提及的人名、地点和组织的名称。我的问题是，如果我有一个文档训练集，其中提到了文本中的软件项目，我可以使用这个训练集来训练命名实体识别器吗？培训完成后，我应该能够向经过培训的模型提供一组测试文本文档，并且我应该能够识别那里提到的软件项目。

使用 NER 可以实现这种通用 NER 吗？如果是这样，我应该使用哪些功能？

谢谢阿布舍克小号

需要登录才能够评论，你可以免费注册一个本站的账号。

执笏见 2024-12-13 07:12:40

前提是您有足够的培训数据和标记的软件项目，这是可能的。

如果使用 Lingpipe，我会使用字符 n 元模型作为您任务的第一个选项。它们很简单并且通常可以完成工作。如果结果不够好，一些标准 NER 功能包括：

标记
词性 (POS)
大写
标点符号
字符签名：这些是一些想法： ( LUCENE -> AAAAAA -> A) 、 (Lucene -> Aaaaaa - > Aa ), (Lucene-core --> Aaaaa-aaaa --> Aa-a)
组成一个也可能有用gazzeteer（软件项目列表），如果您可以从 Wikipedia、sourceforge 或任何其他内部资源获取该列表。

最后，对于每个标记，您可以添加上下文特征，当前标记之前的标记（t-1，t-2 ...），当前标记之后的标记（t + 1，t + 2 ...）以及它们的二元组合 (t-2^t-1)、(t+1^t+2)。