翻译数据集用于NER Spacy模型

发布于 2025-02-08 03:08:32 字数 313 浏览 3 评论 0原文

我正在尝试培训一个模型,以识别简历。更具体地说,我正在尝试培训模型以认识教育,专业经验,技能等。我正在使用我在网上找到的简历数据集,该简历已经以spacy“ ner”模型可以识别的方式进行了格式化。但是数据集用英语,我需要法语数据。 在某个时候,我可能会手动构建数据集,但是现在我将安定为翻译已经拥有的数据集。 例如,让我们制造一个数据点:

[[['我去了纽约',{entity:[11,19,位置],[3,7,动词]}]]。数字代表第一个和最后一个字符的位置。因此,“纽约”是一个地点。

因此,这里的问题是翻译将改变,改变,对我们重要的实体的位置。那么我的问题是:有更好的方法吗?

I am trying to train a model for entity recognition on resumes. More specifically, I am trying to train a model to recognize education, professional experience, skills, etc.. on resumes. I am using a dataset of resumes I found online that is already formatted in a way that a spacy 'ner' model would recognize. But the dataset is in English, and I need French data.
At some point, I will probably build the dataset manually, but for now I am going to settle for translating the dataset I already have.
For example, let's manufacture a datapoint:

[['I went to New York ', {entity : [11,19, Location], [3, 7, verb]}]]. The numbers represent the position of the first and last character. So 'New York' is a location.

So the issue here is that the translation will shift, change, the position of the entities that are important for us. So then my question is : Is there a better way to do this ?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文