如何使用 spaCy 中 NER 或 EntityRuler 匹配的实体来训练 TextCategorizer？

发布于 2025-01-12 18:29:38 字数 400 浏览 3 评论 0原文

我试图了解如何根据早期管道组件找到的命名实体（而不仅仅是原始文本）对文档进行分类。

说我有文件 “毛工资 50 美元。净工资 40 美元。税 10 美元”

我想将整个文本分类为多标签文本猫中的工资单。

通过一些自定义 EntityRuler 模式，我可以轻松预测文档实体标签，如下所示： “总工资 [金钱]。净工资 [金钱]。税收 [金钱]”

我的问题是，如何使用这些标签（存储在 doc.ents / Token.ent_type 中）作为特征来训练 TextCategorizer，以便它只关心是否令牌是金钱，并且在预测类别时不区分不同的数量（$50、$40、$10）？即，如何根据所有或部分文档标记的 token.ent_type 而不是 token.text 对文档进行分类？

我正在使用 spaCy 3.2

原文

分享到QQ

分享到微博