当前位置：文江博客话题详情

基于编辑距离的方法与 Soundex

发布于 2024-07-04 21:18:30 字数 158 浏览 13 评论 0原文

根据相关线程中的 this 评论，我想知道为什么 Levenshtein 距离基于方法比 Soundex 更好。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

任性一次 2024-07-11 21:18:30

Soundex 相当原始 - 它最初是为了手动计算而开发的。它会产生一个可以比较的密钥。

Soundex 与西方名字配合得很好，因为它最初是为美国人口普查数据开发的。它用于语音比较。

编辑距离着眼于两个值并根据它们的相似性生成一个值。它正在寻找丢失或替换的字母。

基本上，Soundex 更适合发现“Schmidt”和“Smith”可能是同一个姓氏。

Levenshtein 距离更适合发现用户输入错误的“Levnshtein”；-)

回复收藏 0 原文

腹黑女流氓 2024-07-11 21:18:30

我建议使用 Metaphone，而不是 Soundex。如前所述，Soundex 是在 19 世纪为美国名字开发的。当检查那些“听出来”并按语音拼写的糟糕拼写者的工作时，Metaphone 会给你一些结果。

编辑距离擅长捕捉拼写错误，例如重复字母、颠倒字母或按错键。

考虑应用程序来决定哪一个最适合您的用户，或者同时使用两者，并使用 Metaphone 补充 Levenshtein 提供的建议。

关于最初的问题，我已成功使用 n-grams在信息检索应用中。

回复收藏 0 原文

萌逼全场 2024-07-11 21:18:30

我同意你关于 Daitch-Mokotoff 的观点，Soundex 有偏见，因为最初的美国人口普查员想要“美国化”的名字。

也许一个关于差异的例子会有所帮助：

Soundex 将附加值放在单词的开头 - 事实上它只考虑前 4 个语音。因此，虽然“Schmidt”和“Smith”将匹配“Smith”，但“Wmith”则不会。

Levenshtein 的算法更适合查找拼写错误 - 一两个丢失或替换的字母会产生高度相关性，而这些丢失字母的语音影响则不太重要。

我认为两者都不是更好，我会考虑使用距离算法和语音算法来帮助用户纠正键入的输入。

回复收藏 0 原文

洒一地阳光 2024-07-11 21:18:30

@Keith：

正如我在另一个问题上发布的那样，Daitch-Mokotoff对我们欧洲人来说更好（我认为对美国人来说）。

我还阅读了有关 Levenshtein 的 Wiki。但我不明白为什么（在现实生活中）它对用户来说比 Soundex 更好。

回复收藏 0 原文

~没有更多了~

关于作者

夏日浅笑〃

暂无简介

0 文章

0 评论

24 人气

关注发私信

離殇

文章 0 评论 0

关注

小姐丶请自重

文章 0 评论 0

关注

Aik

文章 0 评论 0

关注

国产ˉ祖宗

文章 0 评论 0

关注

猥琐帝

文章 0 评论 0

关注

半仙

文章 0 评论 0

友情链接

文江博客

基于编辑距离的方法与 Soundex

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

離殇

小姐丶请自重

Aik

国产ˉ祖宗

猥琐帝

半仙

友情链接

基于编辑距离的方法与 Soundex

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

離殇

小姐丶请自重

Aik

国产ˉ祖宗

猥琐帝

半仙

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。