如何快速遍历数据库

发布于 2022-08-25 00:10:53 字数 165 浏览 14 评论 0

我有一个数据库，里面有1千万的数据，每条数据存放一个url，我要测试这个url是否是可以链接的，使用python实现，什么思路？
使用twisted还是gevent？
如果使用gevent，如何动态添加url，比如我gevent的pool设置为100,在数据库中取出数据的时候如何遍历最高效？

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

小糖芽 2022-09-01 00:10:53

都行，建议你用队列来序列化整个工作，redis这种kv数据库级的或者是gevent.queue这种协程级的或者是multiprocessing.queue这种跨进程的队列都行……

目测这个工作主要瓶颈在检查url是否正常（http code 2xx？），次瓶颈在从数据库读这10M条记录。
对于检查url的工作，可以通过gevent/twisted/多线程/多进程来并发，就像你说的pool设置到100。
对于从数据库读出记录，并行不见得比串行访问更快……

所以，开一个到两个reader从数据库读，开100个以上的checker去检查url就可以了。中间放一个queue用来通信。
是这样的结构： reader ---(写入)--> 队列 ---(读出)--> checker

至于队列用什么实现，不是很重要……因为瓶颈不在这儿……
从数据库读就很容易了，如果只有一个reader，就select * from table得到一个完整的数据集，遍历写入队列即可

回复收藏 0

~没有更多了~

关于作者

蓝眸

暂无简介

0 文章

0 评论

22 人气

关注发私信

友情链接

文江博客

如何快速遍历数据库

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

1CH1MKgiKxn9p

ゞ记忆︶ㄣ

JackDx

信远

yaoduoduo1995

霞映澄塘

友情链接

如何快速遍历数据库

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

1CH1MKgiKxn9p

ゞ记忆︶ㄣ

JackDx

信远

yaoduoduo1995

霞映澄塘

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。