根据标签数据从句子（REGEX）中提取标签信息

发布于 2025-02-10 10:20:58 字数 393 浏览 0 评论 0 原文

我有一个输入语料库，可能是以下格式：

名称：ABC DEF日期：8-01-09年龄：5 （名称 +姓氏）//预期输出：ABC DEF

名称：ABC日期：8-01-09年龄：5 （仅出现名称）//预期输出：ABC

名称ABC日期8-01-09年龄5 （没有COLON标签之后）//预期输出：ABC

日期8-01-09名称ABC Def Age 5 （随机位置中的名称标签）//预期输出：ABC DEF

当前解决方案：我能够进行硬码它要搜索名称并以单词为止直到第一个空间。但是我不确定如何在名字+姓氏（本质上是在下一个标签之前）提取。

任何帮助将不胜感激。谢谢！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

夜访吸血鬼 2025-02-17 10:20:58

尝试（ regex101 ）：

import re

test_cases = [
    "Name: ABC Def Date: 8-01-09 Age: 5",
    "Name: Abc Date: 8-01-09 Age: 5",
    "Name ABC Date 8-01-09 Age 5",
    "Date 8-01-09 Name ABC DEF Age 5",
]

pat = re.compile(r"Name:?\s*(.*?)\s*(?:(?:Date|Age:?\s*\d)|$)")

for t in test_cases:
    m = pat.search(t)
    print(m.group(1))

打印：

ABC Def
Abc
ABC
ABC DEF

Try (regex101):

import re

test_cases = [
    "Name: ABC Def Date: 8-01-09 Age: 5",
    "Name: Abc Date: 8-01-09 Age: 5",
    "Name ABC Date 8-01-09 Age 5",
    "Date 8-01-09 Name ABC DEF Age 5",
]

pat = re.compile(r"Name:?\s*(.*?)\s*(?:(?:Date|Age:?\s*\d)|$)")

for t in test_cases:
    m = pat.search(t)
    print(m.group(1))

Prints: