创建建议词算法

发布于 2024-11-03 00:51:41 字数 310 浏览 4 评论 0原文

我正在设计一个很酷的拼写检查器（我知道我知道，现代浏览器已经有了这个），无论如何，我想知道开发一个相当简单但不错的建议词算法需要付出什么样的努力。

我的想法是，我首先查看拼写错误的单词的字符，并计算它在字典中每个单词中匹配的字符数量（听起来需要大量资源），然后选择前 5 个匹配项（因此，如果拼写错误的单词与最多的字符匹配）字典中有 7 个单词，它将随机显示其中 5 个单词的建议拼写）。

显然，为了更高级，我们会查看“常用单词”并拥有一个字典文件，该文件按照“该单词在英语中使用的频率”排名进行编号。我认为这可能有点过分了。

你怎么认为？有人对此有想法吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

疧_╮線 2024-11-10 00:51:41

首先，您必须考虑查找与拼写错误的单词“更接近”的单词的复杂性。我看到你正在使用字典，也许是哈希表。但这可能还不够。这里最好、更酷的解决方案是采用 TRIE 数据结构。找到这些所谓的较近单词的复杂性将需要线性顺序计时，并且很容易耗尽树。

一个小例子

以单词“njce”为例。这是一个 1 级示例，其中一个单词明显拼写错误。预期的明显建议会很好。第一步很明显是看这个词是否出现在字典中。使用 TRIE 的搜索功能，这可以在 O(1) 时间内完成，类似于字典。更酷的部分是寻找建议。显然，您必须穷尽所有以“a”到“z”开头的单词，其中包含 ajce bjce cjce upto zjce 等单词。现在，找到这种类型的出现次数又是线性的，具体取决于字符数。您不应该因将这个数字乘以 26 个单词长度而得意忘形。由于 TRIE 随着长度的增加而立即减小。回到问题上来。一旦搜索完成但未找到结果，您将转到下一个字符。现在您将搜索 nace nbce ncce 直至 nzce。事实上，您不会探索所有组合，因为 TRIE 数据结构本身不具有中间字符。也许它会有 na ni ne no nu 字符，并且搜索空间变得非常简单。进一步发生的情况也是如此。您可以根据二阶和三阶匹配进一步发展这个概念。希望这有帮助。

回复收藏 0 原文