当前位置：文江博客话题详情

如何确定两个相似的乐队名称是否代表同一乐队？

发布于 2024-08-14 14:26:13 字数 574 浏览 1 评论 0原文

我目前正在开展一个项目，该项目要求我将我们的乐队和场地数据库与许多外部服务相匹配。

基本上我正在寻找一些关于确定两个名字是否相同的最佳方法的方向。例如：

我们的数据库场地名称 - “The Pig and Whistle”
服务 1 - “Pig and Whistle”
服务 2 - “The Pig & Whistle”
等

我认为主要区别在于缺少“the”或使用“&”而不是“and”，但也可能有稍微不同的拼写和不同顺序的单词。

在这种情况下通常使用哪些算法/技术，我是否需要过滤干扰词或进行某种拼写检查类型匹配？

你见过 c# 中类似的例子吗？

更新：如果有人对 ac# 示例感兴趣，您可以通过执行 Google 代码搜索 Levenshtein 距离

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

冷心人i 2024-08-21 14:26:13

执行此操作的规范（可能也是最简单）方法是测量 Levenshtein 距离 位于两个字符串之间。如果距离相对于字符串的大小较小，则可能是同一字符串。请注意，如果您必须比较许多非常小的字符串，则很难判断它们是否相同。对于较长的字符串效果更好。

更聪明的方法可能是比较两个字符串之间的编辑距离，但为更明显的转换分配零距离，例如“and”/“&”、“Snoop Doggy Dogg”/“Snoop”等。

回复收藏 0 原文

魔法唧唧 2024-08-21 14:26:13

我不久前做了类似的事情，我使用了 Discogs 数据库（这是公共领域），它也跟踪艺术家别名；

您可以：

使用 API 调用 (namevariations 字段）。
下载每月数据转储 (*_artists.xml.gz) & ;将其导入您的数据库中。它包含相同的数据，但显然要快得多。

与Levenshtein distance)解决方案相比，此方法的优点之一是您会得到更少的错误匹配。
例如，Ryan Adams 和 Bryan Adams 的得分为 2，相当不错（越低匹配越好，Pig 和Whistle 和 Pig & Whistle 的得分为 3），但他们显然是不同的人。

虽然您可以制定更智能的算法（例如，它也会考虑字符串长度），但使用别名 DB 要简单得多。更少的错误电话；实施此操作后，我可以完全删除其他答案和建议中建议的解决方案。有更好的比赛。