PHP短文本匹配的排序算法
PHP做简单的短文本搜索匹配时,我用的是最长公共子序列。但是如果关键字匹配到两条文本的相似度一样时,如何将两条文本中关键字更靠前的返回?举例:关键字“无”匹配到“无双”和“虚无”,我要如何在返回的结果中把“无双”排在“虚无”前面?那“无双”匹配到的“无小明的双”和“小明无的双”呢?
<?php
$names = array(
'真三国无双',
'无双剑姬',
'虚无',
'一时无两',
'南无阿弥陀佛',
'崖山之后无中国',
);
//拆分词语为单个字符
function split_name($name) {
preg_match_all("/./u", $name, $arr);
return $arr[0];
}
//最长公共子序列
function LCS($str_1, $str_2) {
$len_1 = strlen($str_1);
$len_2 = strlen($str_2);
$len = $len_1 > $len_2 ? $len_1 : $len_2;
$dp = array();
for ($i = 0; $i <= $len; $i++) {
$dp[$i] = array();
$dp[$i][0] = 0;
$dp[0][$i] = 0;
}
for ($i = 1; $i <= $len_1; $i++) {
for ($j = 1; $j <= $len_2; $j++) {
if ($str_1[$i - 1] == $str_2[$j - 1]) {
$dp[$i][$j] = $dp[$i - 1][$j - 1] + 1;
} else {
$dp[$i][$j] = $dp[$i - 1][$j] > $dp[$i][$j - 1] ? $dp[$i - 1][$j] : $dp[$i][$j - 1];
}
}
}
return $dp[$len_1][$len_2];
}
function search($name) {
Global $names;
$sort_list = array();
if (mb_strlen($name, 'utf-8') != strlen($name)) { // 是否全英文字符
$arr_1 = array_unique(split_name($name));
foreach ($names as $value) {
$arr_2 = array_unique(split_name($value));
$similarity = count($arr_2) - count(array_diff($arr_2, $arr_1));
$sort_list[$value] = $similarity;
}
} else {
foreach ($names as $value) {
$similarity = LCS($name, $value);
$sort_list[$value] = $similarity;
}
}
arsort($sort_list);
return $sort_list;
}
header('content-type:text/html;charset=utf-8');
print_r(search('无'));
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
所以你只是想让搜索结果中字在前的排名越前咯?那不就直接把所有匹配到的字的位置相加越小的不就在前面么?不知道我理解错没有... 代码在线运行:http://3v4l.org/K0X7m