数据可视化-百万级数据搜索优化
最近遇到了一个难题,就是在150万条记录中进行查询和搜索(带分页),查询部分必须带like查询和排序,我需要对其中的接口进行优化。原先的接口查第一页用时约0~1秒,最后一页3~4秒,我如果在其中添加索引可以达到,第一页用时约100~200毫秒,最后一页1.5~2秒,但数据要求比较高,有字段会频繁的Update,采用索引会比较慢,求解答,数据库是SQLSERVER2008,不考虑分布式数据库,因为没有这样的设备。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
看你问题的意思是不想使用like字段的索引,提高检索效率,还真是难题
每次翻页的时候带上一个参数,这个参数在数据库中可以使用索引,比如咱们建表都有id原来翻页到后面几页的时候sql是这样的
SELECT * FROM
xxx
WHERE title LIKE '%xx%' ORDER BY id DESC LIMIT 900,10如果你查找到了当前页最后一条数据,然后翻页的时候把这个id作为检索条件,sql是这样
SELECT * FROM
xxx
WHERE id < 1517801 AND title LIKE '%xxx%' ORDER BY id DESC LIMIT 10这样检索效率会高很多
当然,这种方式解决的是翻页到后面比较慢的问题,还需要一个操作就是读写分离了,写库上面不加索引,读库上加上索引,这样更新的时候不会慢,检索也能用上索引
========================== 以下是完善 =======================================
就在看完这个问题没多久,我也有个项目面临这个问题,要是百万级数据,使用like '%xxx%'的方式检索,已经加上了读写分离,速度还是很慢,因为like列加索引也用不了,困扰了一段时间
后来有个解决方案,把like的列和id保存到mongodb,然后在检索出id后到mysql中用id in 的方式检索,速度绝对杠杠的,我这边的测试结果,速度快了100倍!绝对好使!
当然也有一定的成本,增删改的操作必须要同步更新mongodb,而且还要考虑操作失败的事务回滚
like 语句使用右模糊查询.
例如 name like '马云%'
参考资料
http://www.2cto.com/database/201304/202679.html
高效分页sql查询语句汇总
sqlserver2005不支持关键字limit ,所以它的分页sql查询语句将不能用mysql的方式进行,幸好sqlserver2005提供了top,rownumber等关键字,这样就能通过这几个关键字实现分页。
下面是本人在网上查阅到的几种查询脚本的写法:
几种sqlserver2005高效分页sql查询语句
top方案:
select top 10 * from table1
where id not in(select top 开始的位置 id from table1)
max:
select top 10 * from table1
where id>(select max(id)
from (select top 开始位置 id from table1order by id)tt)
row:
select *
from (
select row_number()over(order by tempcolumn)temprownumber,*
from (select top 开始位置+10 tempcolumn=0,* from table1)t
)tt
where temprownumber>开始位置
3种分页方式,分别是max方案,top方案,row方案
效率:
第1:row
第2:max
第3:top
缺点:
max:必须用户编写复杂sql,不支持非唯一列排序
top:必须用户编写复杂sql,不支持复合主键
row:不支持sqlserver2000
测试数据:
共320万条数据,每页显示10条数据,分别测试了2万页、15万页和32万页。
页码,top方案,max方案,row方案
2万,60ms,46ms,33ms
15万,453ms,343ms,310ms
32万,953ms,720ms,686ms
是一种通过程序拼接sql语句的分页方案,
用户提过的sql语句不需要编写复杂的sql逻辑
诺用户提供sql如下
select * from table1
从第5条开始,查询5条,处理后sql变为
select *
from (
select row_number()over(order by tempcolumn)temprownumber,*
from (select top 10 tempcolumn=0,* from table1)t
)tt
where temprownumber>5
这是什么意思呢?分解一下
首先将用户输入的sql语句转稍稍修改
在select后添加top 开始位置+条数变成
再外加一列tempcolum,变成这样
select top 20 tempcolumn=0,* from clazz
嵌套一层,这样便可查询出行号
刚才那个列就是用来这里order by用的
(也不知道sqlserver的row_number函数为什么必须要order by)
select row_number()over(order by tempcolumn)temprownumber,*
from (修改过的查询)t
再套一层,过滤掉行号小于开始位置的行
select * from (第二层)tt
where temprownumber>10