非常快速地从数据库获取模糊字符串匹配

发布于 2024-08-18 15:35:46 字数 246 浏览 7 评论 0原文

我有一个大约 150'000 个单词和一个模式（任何单个单词）的数据库，我想从数据库中获取所有单词，该单词与模式之间的 Damerau-Levenshtein 距离小于给定数字。我需要非常快做到这一点。你能建议什么算法？如果 Damerau-Levenshtein 距离没有好的算法，那么 Levenshtin 距离也可以。

感谢您的帮助。

PS 我不会使用 SOUNDEX。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

梦萦几度 2024-08-25 15:35:46

我会从一个 SQL 函数开始计算 Levenshtein 距离（在 T-SQl 或 .Net 中）（是的，我是 MS 人员...），其中最大距离参数会导致提前退出。

然后，可以使用此函数将您的输入与每个字符串进行比较，以检查距离，如果超过阈值则继续进行下一个。

例如，我还认为您可以将最大距离设置为 2，然后过滤长度大于 1 且第一个字母不同的所有单词。使用索引，这可能会稍微快一些。

您还可以快捷方式带回所有完美匹配的字符串（索引将加快速度），因为这些字符串实际上需要更长的时间来计算 0 的编辑距离。

只是一些想法......

回复收藏 0 原文

迷迭香的记忆 2024-08-25 15:35:46

我认为您无法在不实际枚举所有行的情况下计算此类函数。
所以解决方案是：

使其成为一个非常快速的枚举（但这并不能真正扩展）
以某种方式过滤初始变体（按字母索引，至少 x 个常见字母）
使用替代（可索引）算法，例如 N-Grams（但是我没有关于 ngrams 与 DL 距离的结果质量的详细信息）。

回复收藏 0 原文

还不是爱你 2024-08-25 15:35:46

我想到的一个解决方案可能是将数据库存储在排序集中（例如，C++ 中的 std::set），因为在我看来，按字典顺序排序的字符串会比较好。要估计给定字符串在 set 中的位置，请在字符串上使用 std::upper_bound，然后从找到的位置在两个方向上向外迭代该集合，计算移动的距离，并在低于某个阈值时停止。我有一种感觉，这个解决方案可能只会匹配具有相同起始字符的字符串，但如果您使用该算法进行拼写检查，那么这种限制是常见的，或者至少不足为奇。

编辑：但是，如果您正在寻找算法本身的优化，那么这个答案是无关紧要的。

回复收藏 0 原文

怂人 2024-08-25 15:35:46

我使用 KNIME 进行字符串模糊匹配，并且很快得到了结果。在其中制作可视化工作流程也非常容易。只需从 https://www.knime.org/ 安装 KNIME 免费版，然后使用“String Distance”并“相似性搜索”节点来获取结果。我在这里附加了一个小的模糊匹配样本工作流程（在这种情况下，输入数据来自顶部，要搜索的模式来自底部）：
在此处输入图像描述