PHP/MySQL小规模模糊搜索

发布于 2024-08-15 05:36:44 字数 587 浏览 11 评论 0原文

我正在寻求为小型 PHP/MySQL 应用程序实现模糊搜索。具体来说，我有一个包含大约 2400 条记录的数据库（记录以每年大约 600 条的速度添加，因此这是一个小型数据库）。感兴趣的三个字段是街道地址、姓氏和日期。我希望能够通过这些字段之一进行搜索，并且基本上能够容忍拼写/字符错误。即，地址“123 Main Street”还应匹配“123 Main St”、“123 Main St.”、“123 Mian St”、“123 Man St”、“132 Main St”等，名称也同样如此和日期。

我在回答其他类似问题时遇到的主要问题是：

不可能为每个可能的错误拼写定义同义词，忘记为日期和名称定义同义词。
对于如此有限的搜索数据集（称之为最多 5000 条记录，每条记录 3 个字段），Lucene 等似乎非常重量级。
对于所有可能的拼写错误，仅使用通配符执行某些操作似乎并不符合逻辑。

有什么建议吗？我知道不可能用 MySQL 本地完成，但由于数据集非常有限，我想保持它相对简单......也许是一个 PHP 类，可以获取所有内容来自数据库的记录，使用某种比较算法，并返回相似记录的 ID？

谢谢，贾森

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

别把无礼当个性 2024-08-22 05:36:44

Razzie 的答案（或使用 Damerau–Levenshtein）对候选匹配列表进行排名根据它们与搜索键的接近程度。（注意：如果按键是“12 Main St”，则“13 Main St”与“12 Moin St”具有相同的打字距离，但您可能希望将其排名较低，甚至排除它，就像 11 和 22 Main St 一样等等）

但是如何选择规模可管理的候选人列表进行排名呢？

一种方法是计算要搜索的字符串中每个单词的变音位值（或多个值，使用双变音位）。将每个变音位保存在另一个表中，并使用包含原始字符串的行的 ID。然后，您可以使用 LIKE 'key%' 快速搜索这些变音位值，其中 key 是搜索文本中单词的变音位。

查看此线程上的建议答案。它非常简洁，对于规模不大的数据库来说应该可以很好地工作。

回复收藏 0 原文