当前位置：文江博客话题详情

algorithm trie spell-checking dynamic-programming

遍历 Trie 来检查拼写建议的好算法是什么？

发布于 2024-09-09 04:19:17 字数 224 浏览 6 评论 0原文

假设建立了一个通用的字典单词Trie，那么在遍历过程中检查替换、删除、转置和插入这四种拼写错误的最佳方法是什么？

一种方法是找出给定单词的 n 个编辑距离内的所有单词，然后在 Trie 中检查它们。这不是一个坏选择，但这里更好的直觉似乎是使用动态编程（或递归等效）方法来确定在遍历期间修改单词后的最佳子尝试。

任何想法都会受到欢迎！

PS，希望得到实际的输入，而不仅仅是答案中的链接。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（4）

情话已封尘 2024-09-16 04:19:17

前几天我实际上编写了一些代码来执行此操作：

https:// bitbucket.org/teoryn/spell-checker/src/tip/spell_checker.py

它基于 Peter Norvig 的代码 (http://norvig.com/spell- Correct.html），但将字典存储在特里树中，以便更快地查找给定编辑距离内的单词。

该算法通过消耗输入单词中的字母，递归地遍历特里树，在每一步中应用可能的编辑（或不应用）。递归调用的参数表明还可以进行多少次编辑。 trie 通过检查从我们给定的前缀实际上可以到达哪些字母来帮助缩小搜索空间。例如，当插入一个字符时，我们不是添加字母表中的每个字母，而是只添加从当前节点可达的字母。不进行编辑相当于从 trie 中的当前节点沿着输入单词的当前字母获取分支。如果该分支不存在，那么我们可以回溯并避免搜索可能找不到真正单词的大空间。

回复收藏 0 原文

沐歌 2024-09-16 04:19:17

我认为您可以通过在树上进行简单的广度优先搜索来做到这一点：选择您要查找的错误数量的阈值，只需一次遍历要匹配的单词的字母，生成一组到目前为止已达到与前缀匹配的 (prefix, subtrie) 对，当您低于错误阈值时，请添加到您的下一个子目标集中：

此字符位置没有错误：在单词中的下一个字符处添加 trie 的子目标
在此位置插入、删除或替换的字符：找到相应的 trie，并增加错误计数；
不是额外的目标，但请注意，转置是与先前的删除或插入相匹配的插入或删除：如果此测试成立，则不要增加错误计数。

这看起来很天真：是否有一个问题让您想到动态规划？

回复收藏 0 原文

萌辣 2024-09-16 04:19:17

假设单词中的每个连续字符代表树中的一个级别，那么您需要检查每个字符的五种情况（匹配、删除、插入、替换和转置）。我假设换位是两个相邻的字符。

您将需要一个函数（CheckNode）来接受树节点和要检查的字符。它将需要返回一组表示匹配的（子/孙）节点。

您将需要一个接受单词的函数（CheckWord）。它根据一组节点依次检查每个字符。它将返回一组表示匹配单词的（叶）节点。

这个想法是，树中的每个级别（子级、孙级等）都与单词中字符的位置相匹配。如果您将顶级树节点称为级别 0，那么您将拥有级别 1、级别 2 等。

显然，对于没有错误的单词，字符位置和树中的级别之间存在一对一的匹配。

对于删除，您需要跳过树中的一级。

对于插入，您需要跳过单词中的一个字符。

对于替换，您需要跳过一个级别和一个角色。

对于转置，您需要（暂时）交换单词中的字符。

回复收藏 0 原文

筱果果 2024-09-16 04:19:17

看一下计算 Levenshtein 距离，它提供了一种动态编程解决方案，用于查找两个之间的距离序列。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

24 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

胡图图

文章 0 评论 0

zt006

文章 0 评论 0

z祗昰~

文章 0 评论 0

冰葑

文章 0 评论 0

野の

文章 0 评论 0

天空

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文