如何解决MySQL存储人名的困境，同时保持可区分性和相似名字的搜索？

发布于 2024-11-27 01:28:51 字数 746 浏览 1 评论 0原文

我被授予了一项美丽的任务;-) 在 MySQL 数据库中设计一些应该保存人名的表。

标准：

我只有全名。（没有分隔，例如名字、姓氏等）
存储应该区分变音符号。（以下名称代表不同人）
- “Voss”和“Voß”。
- “乔尔”和“乔尔”。
- “法郎”、“法郎”和“法郎”。
搜索应返回与搜索字符串相似的所有名称：例如：搜索“franc”应返回 [“franc”、“Franc”、“Fránc”] 等等...（如果搜索不仅会返回不区分变音符号的匹配项，而且可能还会返回发音相似的名称或部分与搜索字符串匹配的名称...）

我想对将在其中存储名称的列（声明为unique）使用COLLATION utf8_bin。这可以满足第二点。但这会损害第三点。使用 collation utf8_unicode_ci 将列名声明为 unique 可以满足第 3 点，但它会损害第 2 点。

所以我的问题是：有没有办法解决这个任务并尊重所有标准？因为我不想重新发明轮子：是否有一种优雅的方式来处理数据库中的人名（及其搜索）？（遗憾的是，我无法将名称分为名字、姓氏和可选的中间名...）

编辑：

名称数量约为一百万（~1.000.000）个条目。如果重要的话：我使用 python 作为脚本语言来填充数据库并稍后查询数据。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

乞讨 2024-12-04 01:28:51

有用的是，如果您可以将全名分解为组件“名称词”，并为每个组件存储一个语音编码（变音位或许多其他选择之一）。不过，您只需要名称词的概念，而不是专门将其分类为第一个、中间或最后一个，这很好，因为这些类别无论如何都不能很好地跨文化工作）。但是，如果您愿意，您可以稍后在排名中使用位置顺序信息，以便搜索“Paul Carl”比匹配“Carl Paul”更好地匹配“Paul Karl”。您需要注意不明确的标点符号，这可能需要存储某些名称单词的多个版本。例如，Bre-Anna Heim 将被分解为名字单词“bre”、“anna”、“breanna”和“heim”。有时破折号是无关紧要的，就像 Bre-Anna 一样，但有时不像 Sally-June 那样。Bre-Anna 从来不会只使用 Bre 或 Anna，但 Sally-June 有时可能只使用 Sally 或 June。很难知道是哪一个，所以。

您可以通过类似地分解和语音编码您正在搜索的全名来编写您的查询，例如，您的查询可以返回具有两个或多个组件名称语音匹配的全名（或者如果有的话）是搜索或源中只有一个名称）。这为您提供了一个完整名称的子集，您可以对它们进行简单的排名，甚至可以对该子集执行诸如距离匹配算法之类的操作。当我说距离匹配时，我指的是 Levenshtein 距离等在线算法

（编辑），其原因是处理类似以下名称的情况：Maria de los。安吉利斯·戈麦斯-罗德里格斯。一名数据输入人员可能只需输入 Maria Gomez。另一个可能是玛丽亚·戈麦斯·罗德里格斯。另一个可能是玛丽亚·安吉利斯·罗德里格斯(Maria Angeles Rodrigus)。

回复收藏 0 原文