数据可视化-百万级数据搜索优化

发布于 2016-10-15 07:22:48 字数 214 浏览 1248 评论 2

最近遇到了一个难题，就是在150万条记录中进行查询和搜索(带分页)，查询部分必须带like查询和排序，我需要对其中的接口进行优化。原先的接口查第一页用时约0~1秒，最后一页3~4秒，我如果在其中添加索引可以达到，第一页用时约100~200毫秒，最后一页1.5~2秒,但数据要求比较高,有字段会频繁的Update,采用索引会比较慢，求解答，数据库是SQLSERVER2008,不考虑分布式数据库，因为没有这样的设备。

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

甜柠檬 2017-06-23 04:18:32

看你问题的意思是不想使用like字段的索引，提高检索效率，还真是难题

每次翻页的时候带上一个参数，这个参数在数据库中可以使用索引，比如咱们建表都有id原来翻页到后面几页的时候sql是这样的
SELECT * FROM xxx WHERE title LIKE '%xx%' ORDER BY id DESC LIMIT 900,10

如果你查找到了当前页最后一条数据，然后翻页的时候把这个id作为检索条件，sql是这样
SELECT * FROM xxx WHERE id < 1517801 AND title LIKE '%xxx%' ORDER BY id DESC LIMIT 10
这样检索效率会高很多

当然，这种方式解决的是翻页到后面比较慢的问题，还需要一个操作就是读写分离了，写库上面不加索引，读库上加上索引，这样更新的时候不会慢，检索也能用上索引

========================== 以下是完善 =======================================
就在看完这个问题没多久，我也有个项目面临这个问题，要是百万级数据，使用like '%xxx%'的方式检索，已经加上了读写分离，速度还是很慢，因为like列加索引也用不了，困扰了一段时间

后来有个解决方案，把like的列和id保存到mongodb，然后在检索出id后到mysql中用id in 的方式检索，速度绝对杠杠的，我这边的测试结果，速度快了100倍！绝对好使！

当然也有一定的成本，增删改的操作必须要同步更新mongodb，而且还要考虑操作失败的事务回滚

回复收藏 0

偏爱自由 2017-05-11 00:05:10

like 语句使用右模糊查询.
例如 name like '马云%'

参考资料
http://www.2cto.com/database/201304/202679.html
高效分页sql查询语句汇总

sqlserver2005不支持关键字limit ，所以它的分页sql查询语句将不能用mysql的方式进行，幸好sqlserver2005提供了top，rownumber等关键字，这样就能通过这几个关键字实现分页。
下面是本人在网上查阅到的几种查询脚本的写法：
几种sqlserver2005高效分页sql查询语句
top方案：

select top 10 * from table1
where id not in(select top 开始的位置 id from table1)
max:

select top 10 * from table1
where id>(select max(id)
from (select top 开始位置 id from table1order by id)tt)
row:

select *
from (
select row_number()over(order by tempcolumn)temprownumber,*
from (select top 开始位置+10 tempcolumn=0,* from table1)t
)tt
where temprownumber>开始位置
3种分页方式，分别是max方案，top方案，row方案
效率：
第1：row
第2：max
第3：top
缺点：
max：必须用户编写复杂sql，不支持非唯一列排序
top：必须用户编写复杂sql,不支持复合主键
row：不支持sqlserver2000
测试数据：
共320万条数据，每页显示10条数据，分别测试了2万页、15万页和32万页。
页码，top方案，max方案，row方案
2万，60ms，46ms，33ms
15万，453ms，343ms，310ms
32万，953ms，720ms，686ms

是一种通过程序拼接sql语句的分页方案，
用户提过的sql语句不需要编写复杂的sql逻辑
诺用户提供sql如下

select * from table1

从第5条开始，查询5条，处理后sql变为

select *
from (
select row_number()over(order by tempcolumn)temprownumber,*
from (select top 10 tempcolumn=0,* from table1)t
)tt
where temprownumber>5

这是什么意思呢？分解一下
首先将用户输入的sql语句转稍稍修改
在select后添加top 开始位置+条数变成
再外加一列tempcolum,变成这样

select top 20 tempcolumn=0,* from clazz

嵌套一层，这样便可查询出行号
刚才那个列就是用来这里order by用的
（也不知道sqlserver的row_number函数为什么必须要order by）

select row_number()over(order by tempcolumn)temprownumber,*
from (修改过的查询)t

再套一层，过滤掉行号小于开始位置的行

select * from (第二层)tt
where temprownumber>10

回复收藏 0

~没有更多了~