比较单词的算法（不按字母顺序）

发布于 2024-07-20 13:59:41 字数 699 浏览 7 评论 0 原文

我需要为某个需求编写一个解决方案，我想知道是否有人熟悉可以实现它的现成库，或者可以指导我最佳实践。描述：

用户输入一个单词，该单词应该是几个固定选项之一（我将选项保存在列表中）。我知道输入必须在列表中的成员中，但由于它是用户输入，他/她可能犯了错误。我正在寻找一种算法来告诉我用户最可能想说的单词是什么。我没有任何上下文，我不能强迫用户从列表中进行选择（即他必须能够自由地手动输入单词）。

例如，假设该列表包含单词“water”、“quarter”、“beer”、“beet”、“hell”、“hello”和“aardvark”。

该解决方案必须考虑不同类型的“正常”错误：

速度拼写错误（例如，重复字符、删除字符等）
键盘相邻字符拼写错误（例如，“qater”表示“水”）
非母语英语拼写错误（例如，“quater”表示 “水”） “季度”）
等等......

显而易见的解决方案是逐个字母进行比较，并对每个不同的字母、额外的字母和缺失的字母给予“惩罚权重”。但这个解决方案忽略了数千个“标准”错误，我确信在某处列出了。我确信有一些启发式方法可以处理所有情况，无论是特定的还是一般的情况，可能使用标准不匹配的大型数据库（我对数据密集型解决方案持开放态度）。

我正在用 Python 编码，但我认为这个问题与语言无关。

有什么建议/想法吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

瑕疵 2024-07-27 13:59:41

您想了解谷歌是如何做到这一点的：http://norvig.com/spell- Correct.html

编辑：有些人提到了定义用户给定单词和候选单词（levenshtein、soundex）之间度量的算法。然而，这并不是问题的完整解决方案，因为还需要一种数据结构来有效地执行非欧几里德最近邻搜索。这可以通过覆盖树来完成： http://hunch.net/~ jl/projects/cover_tree/cover_tree.html