当前位置：文江博客话题详情

最小编辑距离快速估计

发布于 2024-12-12 07:54:24 字数 743 浏览 0 评论 0原文

我们有基于 Levenshtein 距离的拼写检查器实现。由于我们无法计算所有可能替换的距离（在 O(n^2) 中计算的两个字符串之间的编辑距离），我们使用 K-gram 索引用于检索替换候选。

所以K-gram索引只是快速消除不相关替换的方法之一。我也对其他方式感兴趣。目前我们还使用了一些技巧。考虑到我们只对编辑距离的替换感兴趣，不再是原始字符串的 d，我们可以使用以下规则：

两个字符串之间的编辑距离不能小于它们之间的长度差。因此长度差大于d的替换可以被消除；
字符串更改中的一个字符更改/删除至少 k k-grams。因此，计数差异为 k-grams k * d 的字符串的编辑距离不能小于 d：。

这些假设正确吗？还有哪些其他消除替换的方法适用于拼写检查器？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

埋葬我深情 2024-12-19 07:54:24

您可以使用简单的规则将搜索限制为以与查询字符串相同的字母开头的字典术语。希望用户不要拼错第一个字母。

此外，您还可以使用排列索引。考虑查询的所有旋转并遍历 B 树以查找与任何旋转匹配的任何字典术语。您还可以通过在执行遍历之前省略 l 字符的后缀来完善此旋转方案

回复收藏 0 原文

风苍溪 2024-12-19 07:54:24

根据我的经验，k-gram 近似还有很多不足之处（它排除了许多相关结果）。

相反，将您的术语放入自动机/转换器、特里树甚至排序数组中就足够了，并通过交集找到真正的编辑匹配。

如果你想一想，它很直观：如果你只想要距离为 1 内的单词，并且输入项是“foo”，那么在检查“b”节点时检查“bar”、“baz”等是没有意义的。只有 boo、bfoo 等有机会，因此您可以将搜索限制为仅可能导致最终状态的前缀。

因此，您只需创建一个自动机，它接受“foo”的 k 编辑距离内的所有单词，然后将该自动机与您的字典自动机/trie/其他内容相交。

您可以非常有效地计算这些 DFA，避免任何缓慢的 NFA-DFA 确定等：

http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.16.652

回复收藏 0 原文

~没有更多了~

关于作者

蛮可爱

暂无简介

0 文章

0 评论

25 人气

关注发私信

Gabu-gabumon

文章 0 评论 0

关注

qq_CgiN62

文章 0 评论 0

关注

荔枝明

文章 0 评论 0

关注

赏烟花じ飞满天

文章 0 评论 0

关注

独守阴晴ぅ圆缺

文章 0 评论 0

关注

¤→小豸慧

文章 0 评论 0

友情链接

文江博客

最小编辑距离快速估计

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签