当前位置：文江博客话题详情

字符串匹配算法

发布于 2024-11-28 02:58:05 字数 228 浏览 3 评论 0原文

我有一个带有企业数据库的 python 应用程序，我希望能够按名称搜索企业（用于自动完成目的）。
例如，考虑名称“百思买”、“麦当劳”、“索尼”和“苹果”。

我希望“app”返回“apple”，以及“appel”和“ple”。 “麦当劳”应返回“麦当劳”。 “bst b”和“best-buy”都应该返回“best buy”。

我正在寻找哪种算法，它有 python 实现吗？

谢谢！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

北城挽邺 2024-12-05 02:58:05

Levenshtein 距离应该可以。

环顾四周 - 有多种语言的实现。

回复收藏 0 原文

爱殇璃 2024-12-05 02:58:05

编辑距离可以做到这一点。

注意：这是一个距离，您必须计算数据库中的每个字符串，如果您有很多条目，这可能是一个大问题。

如果您遇到此问题，请记录用户所做的所有拼写错误（拼写错误=没有直接匹配）并离线构建一个包含所有拼写错误->修复映射的更正数据库。有些公司做得更聪明，例如：谷歌观察用户如何纠正自己的拼写错误并从中学习映射。

回复收藏 0 原文

预谋 2024-12-05 02:58:05

Soundex 或 Metaphone 可能有效。

回复收藏 0 原文

许仙没带伞 2024-12-05 02:58:05

我认为您正在寻找的是数据质量和数据清理的巨大领域。我担心你是否能找到一个与此相关的 python 实现，因为它必须能够清理数据库中的大量数据，这可能具有商业价值。

回复收藏 0 原文

病毒体 2024-12-05 02:58:05

莱文斯泰因距离的方向是正确的，但只完成了一半。有几个技巧可以让它也使用半火柴。

一种是使用子序列动态时间扭曲（DTW 实际上是编辑距离的推广）。为此，您在计算成本矩阵时放宽开始和结束情况。如果您只放宽其中一项条件，则可以通过拼写检查获得自动完成功能。我不确定是否有可用的Python实现，但如果你想自己实现它，它不应该超过10-20个LOC。

另一个想法是使用 Trie 来加速，它可以同时对多个结果执行 DTW/Levensthein（如果数据库很大，加速会很大）。 IEEE 的 Tries 上有一篇关于 Levensthein 的论文，因此您可以在那里找到该算法。同样，为此您需要放宽最终边界条件，以便获得部分匹配。然而，由于您在 trie 中退出，因此您只需要检查何时完全消耗了输入，然后返回所有叶子。

回复收藏 0 原文