多个scrapy-redis无法同时抓取

发布于 2022-09-07 03:47:48 字数 774 浏览 24 评论 0

同时开启两个scrapy任务，然后往redis中push一个start_url
但是只有一个scrapy任务A在运行，当把A停止之后，B任务才会开始抓取。

原因貌似是因为scrapy-redis在运行过程中，在redis中并没有保存requests，只保存了dupefilter，只有ctrl+c停止后，才会在redis中保存requests

或者在往redis中push一个start_url，B任务才会开始抓取。
这是怎么回事？

版本：
python 3.6
Scrapy (1.5.0)
scrapy-redis (0.6.8)

settings.py

SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER_PERSIST = True

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

深爱不及久伴 2022-09-14 03:47:48

原因找到了，是因为生成next_url太慢，即往redis push之后，立马被pop了，才导致redis 没有 requests的序列化，然后导致其他scrapy实例无法读取request继而无法同时进行数据抓取。

回复收藏 0

战皆罪 2022-09-14 03:47:48

那么这个问题要怎么解决？

回复收藏 0

~没有更多了~

关于作者

断爱

暂无简介

文章

702 人气

关注发私信

櫻之舞

文章 0 评论 0

关注

弥枳

文章 0 评论 0

关注

m2429

文章 0 评论 0

关注

寻找一个思念的角度

文章 0 评论 0

关注

野却迷人

文章 0 评论 0

关注

我怀念的。

文章 0 评论 0

友情链接

文江博客

多个scrapy-redis无法同时抓取

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

櫻之舞