当前位置：文江博客话题详情

比较人名以检测相同性的算法

发布于 2024-09-01 22:46:34 字数 237 浏览 2 评论 0原文

我正在研究地址簿同步算法。我想重用一些代码（如果存在），但尚未找到。

有人知道一种算法可以用数字/浮点/百分比告诉我两个名字有多少相同吗？在这种方法中，Levenstein 距离并不好，因为姓名和我们的地址簿与每个姓名部分的开头相匹配。

John Smith 应该匹配
乔恩·史密斯、乔纳森·史密斯、约翰尼·史密斯

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

心房敞 2024-09-08 22:46:34

也看看 Jaro Winkler 算法。这对名字很有好处。
http://en.wikipedia.org/wiki/Jaro%E2%80% 93Winkler_distance

如果您有名字、姓氏问题，那么您可以对它们进行排序，以确保 Smith John 保存为 John Smith

回复收藏 0 原文

如梦初醒的夏天 2024-09-08 22:46:34

您应该查看字符串比较算法，例如 Levenshtein 或 Smith-Waterman。这是一个很棒的库，可以帮助您入门

回复收藏 0 原文

一页 2024-09-08 22:46:34

要真正获得这些类型的情况，您可能需要一个别名表，但我认为 Soundex 会让您接近。

http://commons.apache.org/编解码器/apidocs/org/apache/commons/codec/language/Soundex.html

回复收藏 0 原文

长途伴 2024-09-08 22:46:34

对于名称，我想出了一个类似于 metaphone 的算法。

您还需要一些逻辑将字符串分解为姓氏、名字、头衔等。它可能会变得复杂。

有一些边缘情况。如果某人的头衔是“教授”，您不希望将其解释为名字。如果他们的开头有“Lord”，那么这可能是他们的名字（很多人都被称为Lord）或他们的头衔。等等。最好已经有他们的标准形式的名字，其中您知道他们的姓氏、名字和头衔。

我已经编写了一些 PHP 代码来执行此操作：请参阅名称（参见similarityto()函数），textfuzzy，概率。

回复收藏 0 原文

~没有更多了~

关于作者

邮友

暂无简介

0 文章

0 评论

22 人气

关注发私信

玍銹的英雄夢

文章 0 评论 0

关注

我不会写诗

文章 0 评论 0

关注

十六岁半

文章 0 评论 0

关注

浸婚纱

文章 0 评论 0

关注

qq_kJ6XkX

文章 0 评论 0

关注

旧伤还要旧人安

文章 0 评论 0

友情链接

文江博客

比较人名以检测相同性的算法

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签