如何在数据库里优化 汉明距离 查询?

发布于 2022-09-02 20:52:05 字数 336 浏览 9 评论 0

项目里需要一个搜索相似图片的功能,百度了一些dhash的算法,生成了16个长度的hash值,在mysql里这样查询:

 SELECT pk, hash, 
 BIT_COUNT(   CONV(hash, 16, 10) ^ CONV('4c8e3366c275650f', 16, 10) ) as hamming_distance   
 FROM image_hashes   HAVING hamming_distance < 4   ORDER BY hamming_distance ASC; 

经测试,15W条数据,搜索需要很长时间。第二次速度会快些,有啥办法可以优化?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

○愚か者の日 2022-09-09 20:52:05

谢邀。

抱歉地说,这个我也没有做过,只是之前听说过汉明距离。15w数据,不是很多,但是用了mysql的函数,没办法创建索引。。。

大概搜了一下,有相同的问题。

  1. 可以参考mysql 图片汉明距离计算, 近40w的异或计算, 如何破

  2. Hamming distance on binary strings in SQL

  3. 你可以试试mysql的内存表 MySQL内存表的特性与使用介绍

眼波传意 2022-09-09 20:52:05

不好意思,没有“汉明距离”的相关经验。

如果只是15W数据的话,可以把数据加载到内存里缓存起来,然后在程序里运算,毕竟SQL并不擅长做这种事情。

仅从你的SQL来说,的确没有太大的优化空间,能想到的就只有以下几点:

  • hash列用char代替varchar

  • 舍弃ORDER BY hamming_distance ASC,改为由程序排序

建议把DDL语句和EXPLAIN结果也发上来一并分析,不过最大的性能卡口应该是BIT_COUNT(CONV(hash, 16, 10) ^ CONV('4c8e3366c275650f', 16, 10)) as hamming_distance,其实相当于全表扫描了。

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文