当前位置：文江博客话题详情

php 中找到最相似字符串的最佳方法？

发布于 2024-10-16 19:01:57 字数 245 浏览 14 评论 0原文

天哪，

PHP 有很多字符串函数，例如 levenshtein、similar_text 和 soundex，可以比较字符串的相似性。 http://www.php.net/manual/en/function.levenshtein.php

哪一个的准确性和性能最好？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

﹂绝世的画 2024-10-23 19:01:57

simple_text 的复杂度为 O(max(n,m)**3)，levenshtein 的复杂度为 O(m*n)，其中 n 和 m 是字符串的长度，因此 levenshtein 应该更快。两者都是 100% 准确的，因为它们对于相同的输入给出相同的输出，但每个函数的输出会有所不同。如果您使用不同的准确性度量，则必须创建自己的比较函数。

回复收藏 0 原文

不忘初心 2024-10-23 19:01:57

您没有描述您的用例，但在许多情况下，当我们谈论自然语言时，单词比字符更重要，因此 similar_text() 和 levenshtein() 都可能以非常高的计算成本给出不太有意义的结果。

例如，使用上面的几千篇文章在数据库中搜索具有相似标题的文章很容易堵塞服务器。

我通常做的是编写一个简单的函数，它接受两个字符串，将它们在空格处分割成数组，并计算交集以获得低 CPU 成本的更自然的匹配分数。

只需很少的改进，它就可以在多个用例中真正表现出色，例如在从其他内容中过滤出来的博客中快速提供推荐文章。

我通常实施的改进：

小写字符串
根据匹配元素的长度的 2 次方给出分数，考虑到较长的字符串更难匹配，而且它们往往表明主题之间更有意义的相似性，
抛出仅调节的常见单词比较之前的含义 - 这是特定于语言的，在英语中它可能是一个列表，例如：was、were、no、not、than、then、here、there 等。
在比较之前丢弃字符串中的所有标点符号
在处理合成时，可能附加各种结尾的语言通过在选择交集之前按最常见的后缀长度截断的单词变体来丰富单词数组。

这并不完美，但为了进行比较，该算法处理 cca。 5000,000 篇博客文章，并给出了 3 篇非常好的类似文章，没有明显的性能影响，而在同一服务器上使用 levenshtein 执行相同的操作需要 10-15 秒，这对于网页加载来说显然是不可接受的。

如果您需要差异而不是相似性，则分数可以倒数，或者您可以仅使用数组差异后的非匹配项，而不是数组相交后的匹配项的计数。