当前位置：文江博客话题详情

基于预先计算的哈希值比较字符串距离

发布于 2024-09-13 19:15:46 字数 342 浏览 4 评论 0原文

我有一个很大的字符串列表（超过 200,000 个），我想将它们与给定的字符串进行比较。给定的字符串是由用户插入的，因此可能略有不正确。

我希望做的是在将每个字符串添加到列表中时创建某种预先计算的哈希值。这个散列将包含诸如字符串长度、所有字符的添加等信息。

我的问题是，这样的东西是否已经存在？当然，会有一些东西可以让我避免在列表中的每个字符串上运行 Levenshtein distance 吗？

或者也许还有我还没有想到的第三种选择？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

二智少女 2024-09-20 19:15:46

听起来你想使用某种模糊哈希。有许多可用的哈希函数可以执行此类操作。经典的旧“SOUNDEX”算法甚至可能有效。

另一种想法 - 如果您估计错误输入的概率很低，那么您实际上可能在 99.9% 的情况下直接点击，然后回退到 SOUNDEX，它可能会捕获 90% 的剩余情况，然后搜索整个内容列出剩余 0.01% 的时间。

还值得检查这个讨论：
如何找到最佳大字符串数据库中字符串的模糊匹配

回复收藏 0 原文

~没有更多了~

关于作者

厌味

暂无简介

0 文章

0 评论

22 人气

关注发私信

烙印

文章 0 评论 0

关注

singlesman

文章 0 评论 0

关注

给自己一个微笑

文章 0 评论 0

关注

独孤求败

文章 0 评论 0

关注

晨钟暮鼓

文章 0 评论 0

关注

我是自愿种绣球花的

文章 0 评论 0

友情链接

文江博客

基于预先计算的哈希值比较字符串距离

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者