如何在数据库里优化汉明距离查询？

发布于 2022-09-02 20:52:05 字数 336 浏览 13 评论 0

项目里需要一个搜索相似图片的功能，百度了一些dhash的算法，生成了16个长度的hash值，在mysql里这样查询：

 SELECT pk, hash, 
 BIT_COUNT(   CONV(hash, 16, 10) ^ CONV('4c8e3366c275650f', 16, 10) ) as hamming_distance   
 FROM image_hashes   HAVING hamming_distance < 4   ORDER BY hamming_distance ASC;

经测试，15W条数据，搜索需要很长时间。第二次速度会快些，有啥办法可以优化？

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

○愚か者の日 2022-09-09 20:52:05

谢邀。

抱歉地说，这个我也没有做过，只是之前听说过汉明距离。15w数据，不是很多，但是用了mysql的函数,没办法创建索引。。。

大概搜了一下，有相同的问题。

可以参考mysql 图片汉明距离计算, 近40w的异或计算, 如何破
Hamming distance on binary strings in SQL
你可以试试mysql的内存表 MySQL内存表的特性与使用介绍

回复收藏 0

眼波传意 2022-09-09 20:52:05

不好意思，没有“汉明距离”的相关经验。

如果只是15W数据的话，可以把数据加载到内存里缓存起来，然后在程序里运算，毕竟SQL并不擅长做这种事情。

仅从你的SQL来说，的确没有太大的优化空间，能想到的就只有以下几点：

hash列用char代替varchar
舍弃ORDER BY hamming_distance ASC，改为由程序排序

建议把DDL语句和EXPLAIN结果也发上来一并分析，不过最大的性能卡口应该是BIT_COUNT(CONV(hash, 16, 10) ^ CONV('4c8e3366c275650f', 16, 10)) as hamming_distance，其实相当于全表扫描了。

回复收藏 0

~没有更多了~

关于作者

烂柯人

暂无简介

文章

27 人气

关注发私信

十二

文章 0 评论 0

关注

飞烟轻若梦

文章 0 评论 0

关注

OPleyuhuo

文章 0 评论 0

关注

wxb0109

文章 0 评论 0

关注

旧城空念

文章 0 评论 0

关注

-小熊_

文章 0 评论 0

友情链接

文江博客

如何在数据库里优化汉明距离查询？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

大概搜了一下，有相同的问题。

关于作者

相关话题

热门标签

推荐作者