redis队列里每天有超过一亿条数据，使用python如何高效的将其写入sql数据库?

发布于 2022-09-03 00:58:02 字数 67 浏览 16 评论 0

使用python拉redis队列里的数据，如何确保完整高效不阻塞的把每天上亿条的数据写入mysql/oracle数据库？

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

变身佩奇 2022-09-10 00:58:02

整个就是个队列+消费队列的流程。

给个思路系列：

使用monitor命令监听redis事件，或者升级redis版本(>=2.8)，监听redis改动事件。
多进程/线程/协程处理事件(例如放入缓冲区)
缓冲区数据批量插入数据库。(mysql似乎最多一次插入5000条，不确定，可能是9999或者4999，但是有上限)，依靠SQL数据库事务功能，失败即回滚。

侃大山系列：

4.这么大的数据可以考虑列数据库，hbase之类。

不负责任系列：

5.似乎有人说mongodb数据量大会就有问题，包括国外国内，以及身边的人测试过之后的结论?，言论时间均>=一年。

其他系列：

6.每天2亿条，每秒2000条左右，峰值预估可能有10000条，能达到这个数据量的数据库不多，建议：

做好分库分表
再仔细考虑一下数据库选型
查看一下其他公司的案例
寻求一下上级和更资深的人的意见。

回复收藏 0

揽清风入怀 2022-09-10 00:58:02

用的是什么数据库，MySQL和SQL Server单机版性能差很多。 SQL Server / Oracle /DB2的性能是一个级别的，开源的MySQL性能不是很好，考虑集群，postgresql要好点
这么大的数据量要想迁入到数据库里，要考虑
1）合适的索引，能大大提高写入性能。
2）数据库如果没有设计主从，那就考虑上RAID或SSD，性能跟普通的机械硬盘差的不是一点半点。
3）采用不同的数据库引擎，以MySQL为例，InnoDB和MyISAM还是有性能差异。
4）不要每条记录都commit，集中commit性能会好10倍以上。
5）读写分离，否则你会发现写入数据阻塞了数据的读。

如果每天的数据量都这么大的话，那SQL就不适合了，考虑上Hadoop + HBase吧。
其实你采用什么数据库更多的取决于你的数据格式，有些数据库对特定格式的数据是更友好的，比如HDF5对二进制和空间数据就更友好些

回复收藏 0