当前位置：文江博客话题详情

如何做大数据量的实时层叠筛选，使用什么技术，实现思路是什么？

发布于 2022-01-03 05:07:51 字数 262 浏览 854 评论 6

前提：现有一个表近2亿条数据，例如表字段有“ID”，“姓名”，“年龄”，“所在省份”，“性别”等。

需求：将上述表2亿条数据，根据年龄、所在省份、性别这3个条件，对该表中数据进行筛选出符合条件的数据，要求响应速度快，实时查询。例如我们平时逛淘宝购搜索商品的时候，对商品按照不同的条件进行多项筛选，展示符合条件的商品列表。

还有淘宝和京东商品搜索中的筛选是怎么实现的

本人道行太浅，还请各位大牛帮忙解答，最好能给出实现思路，谢谢谢谢！

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

甜柠檬 2022-01-07 21:09:59

一楼说的不完全错，说对了一半，

两点：1.修改表设计，把原来的用户表拆分至少三张表：

1）.关键字表，把需要查询的字段的所有内容都做一次分词提取出关键字放入此表。

2). 主表文档化结构即只存两个字段，Hash和json将其它字段如名字，年纪，所在省份序列化成json存到这个字段。

3）主表关键字关系表即关键字表里与主表的主键关联。

打比方：姓名：张国庆。那张国庆因为划词出来。存到关系表里形成记录id :1 keyword:张。id:2 keyword国庆。两条

这时张国庆这条主表记录 hash值123，json内容{name:“张国庆”。。。}，这时就需要在第三张表中加两条记录。

key_id:1 user_id :123

key_id:2 userid:123

2.查询的时候根据关键字找到其编号，然后在关系表里找到出现这个关键字的记录。

而不是去like 字段，这样别说2亿条，2百亿条一点问题都没有。

当然这个也有一个问题，就是生成关键字的会比较花时间，而且新增记录需要增量生成（这就需要算法）。

但是优点在于查询速度比一般查询要高10倍。这也就是索引的思想。所以我说1楼对了一半。

回复收藏 0

孤独患者 2022-01-07 20:06:25

按照注册时间写入到时序数据库查询速度应该在120ms左右

回复收藏 0

坐在坟头思考人生 2022-01-06 23:36:06

分裤分表

回复收藏 0

裸钻 2022-01-05 20:27:53

隐隐记得哈，记不太清了，希望没记错，别在帮了倒忙。

回复收藏 0

长安忆 2022-01-04 11:35:22

我记得好像看到有正则关键字匹配项，是做搜索时用的。

回复收藏 0

明媚如初 2022-01-03 20:29:01

哥们，全文检索不合适吧，2亿条数据呢。

回复收藏 0

~没有更多了~

关于作者

柳若烟

暂无简介

0 文章

0 评论

614 人气

关注发私信

Gabu-gabumon

文章 0 评论 0

关注

qq_CgiN62

文章 0 评论 0

关注

荔枝明

文章 0 评论 0

关注

赏烟花じ飞满天

文章 0 评论 0

关注

独守阴晴ぅ圆缺

文章 0 评论 0

关注

¤→小豸慧

文章 0 评论 0

友情链接

文江博客

如何做大数据量的实时层叠筛选，使用什么技术，实现思路是什么？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（6）

关于作者

相关话题

热门标签