如何智能解析姓氏

发布于 2024-12-02 00:45:03 字数 358 浏览 1 评论 0原文

假设西方命名约定为FirstName MiddleName(s) LastName，

从全名中正确解析出姓氏的最佳方法是什么？

例如：

John Smith --> 'Smith'
John Maxwell Smith --> 'Smith'
John Smith Jr --> 'Smith Jr'
John van Damme --> 'van Damme'
John Smith, IV --> 'Smith, IV'
John Mark Del La Hoya --> 'Del La Hoya'

……以及由此而来的无数其他排列。

原文

Assuming western naming convention of FirstName MiddleName(s) LastName,

What would be the best way to correctly parse out the last name from a full name?

For example:

John Smith --> 'Smith'
John Maxwell Smith --> 'Smith'
John Smith Jr --> 'Smith Jr'
John van Damme --> 'van Damme'
John Smith, IV --> 'Smith, IV'
John Mark Del La Hoya --> 'Del La Hoya'

...and the countless other permutations from this.

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

彡翼 2024-12-09 00:45:03

也许最好的答案就是不要尝试。名字是个性化和独特的，即使将自己限制在西方传统中，你也永远无法确定你会考虑到所有的边缘情况。我的一个朋友合法地将自己的名字改为一个单词，他在与各种机构打交道时度过了一段痛苦的时光，而这些机构的程序无法处理这个问题。您处于一个独特的位置，您是创建执行过程的软件的人，因此您有机会设计一些不会惹恼具有非常规名称的人的东西。考虑一下为什么您需要首先解析姓氏，然后看看是否还有其他可以做的事情。

话虽如此，作为纯粹的技术问题，最好的方法可能是从末尾专门修剪字符串“Jr”、“、Jr”、“、Jr.”、“III”、“、III”等包含名称的字符串，然后获取从字符串中最后一个空格到（新的，删除 Jr 等后）结尾的所有内容。从你的例子中，这不会得到“Del La Hoya”，但你甚至不能真正指望一个人能得到它——我有根据地猜测约翰·马克·德尔·拉·霍亚的姓氏是“Del La Hoya” La Hoya”而不是“Mark Del La Hoya”，因为我的母语是英语，而且我对西班牙姓氏有一些直觉 - 如果名字是“Gauthip Yeidze Ka Illunyepsi”，我绝对不会考虑是否将 Ka 算作姓氏的一部分，因为我不知道它来自哪种语言。

回复收藏 0 原文

森林散布 2024-12-09 00:45:03

遇到了一个名为“nameparser”的库
https://pypi.python.org/pypi/nameparser
它处理上述六种情况中的四种：

#!/usr/bin/env python
from nameparser import HumanName

def get_lname(somename):
    name = HumanName(somename)
    return name.last

people_names = [
    ('John Smith', 'Smith'),
    ('John Maxwell Smith', 'Smith'),
    # ('John Smith Jr', 'Smith Jr'),
    ('John van Damme', 'van Damme'),
    # ('John Smith, IV', 'Smith, IV'),
    ('John Mark Del La Hoya', 'Del La Hoya')
]

for name, target in people_names:
    print('{} --> {} <-- {}'.format(name, get_lname(name), target))
    assert get_lname(name) == target

Came across a lib called "nameparser" at
https://pypi.python.org/pypi/nameparser
It handles four out of six cases above:

#!/usr/bin/env python
from nameparser import HumanName

def get_lname(somename):
    name = HumanName(somename)
    return name.last

people_names = [
    ('John Smith', 'Smith'),
    ('John Maxwell Smith', 'Smith'),
    # ('John Smith Jr', 'Smith Jr'),
    ('John van Damme', 'van Damme'),
    # ('John Smith, IV', 'Smith, IV'),
    ('John Mark Del La Hoya', 'Del La Hoya')
]

for name, target in people_names:
    print('{} --> {} <-- {}'.format(name, get_lname(name), target))
    assert get_lname(name) == target

回复收藏 0 原文