当前位置：文江博客话题详情

fuzzy-search string-search

如何在大型字符串数据库中找到字符串的最佳模糊匹配

发布于 2024-07-08 23:00:56 字数 311 浏览 15 评论 0原文

我有一个字符串数据库（任意长度），其中包含超过一百万个项目（可能更多）。

我需要将用户提供的字符串与整个数据库进行比较，并检索相同的字符串（如果存在），否则返回最接近的模糊匹配（60% 相似度或更好）。理想情况下，搜索时间应在一秒以下。

我的想法是在根据长度缩小数据库中的候选者范围后，使用编辑距离将每个数据库字符串与搜索字符串进行比较。

但是，由于我需要经常执行此操作，因此我正在考虑构建数据库字符串的索引以保存在内存中并查询索引，而不是直接查询数据库。

关于如何以不同的方式解决这个问题或如何构建内存索引有什么想法吗？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（7）

放血 2024-07-15 23:00:56

这篇论文似乎准确地描述了您想要的内容。

Lucene (http://lucene.apache.org/) 也实现了 Levenshtein 编辑距离。

回复收藏 0 原文

櫻之舞 2024-07-15 23:00:56

您没有提到您的数据库系统，但对于 PostrgreSQL，您可以使用以下 contrib 模块： trgm - PostgreSQL 的 Trigram 匹配

pg_trgm contrib模块提供了用于根据三元组匹配确定文本相似度的函数和索引类。

回复收藏 0 原文

謌踐踏愛綪 2024-07-15 23:00:56

如果您的数据库支持，您应该使用全文搜索。否则，您可以使用像 lucene 及其各种实现这样的索引器。

回复收藏 0 原文

迷迭香的记忆 2024-07-15 23:00:56

计算 SOUNDEX 哈希（内置于许多 SQL 数据库引擎中）并用它建立索引。

SOUNDEX 是基于单词发音的哈希值，因此同一单词的拼写错误很可能具有相同的 SOUNDEX 哈希值。

然后找到搜索字符串的 SOUNDEX 哈希值，并对其进行匹配。

回复收藏 0 原文

鹿港小镇 2024-07-15 23:00:56

由于数据量很大，当插入记录时，我将计算语音算法的值并将其存储在索引列中，然后将（WHERE 子句）我的选择查询限制在该列的范围内。

回复收藏 0 原文

迷路的信 2024-07-15 23:00:56

丹·古斯菲尔德。

回复收藏 0 原文

与往事干杯 2024-07-15 23:00:56

https://en.wikipedia.org/wiki/Levenshtein_distance

Levenshtein算法已在一些DBMS中实现

（例如PostgreSql：http://www.postgresql.org/docs/9.1/static /fuzzystrmatch.html)

回复收藏 0 原文

~没有更多了~

关于作者

冷月断魂刀

暂无简介

0 文章

0 评论

24 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

離殇

文章 0 评论 0

小姐丶请自重

文章 0 评论 0

Aik

文章 0 评论 0

国产ˉ祖宗

文章 0 评论 0

猥琐帝

文章 0 评论 0

半仙

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文