文章来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

第14章分布式爬取

发布于 2024-02-05 21:13:20 字数 443 浏览 0 评论 0 收藏 0

由于受到计算能力和网络带宽的限制，单台计算机上运行的爬虫在爬取的数据量较大时，需要耗费很长的时间。分布式爬取的思想是“人多力量大”，在网络中的多台计算机上同时运行爬虫程序，共同完成一个大型爬取任务。这一章来学习使用Scrapy框架进行分布式爬取。

Scrapy本身并不是一个为分布式爬取而设计的框架，但第三方库scrapy-redis为其拓展了分布式爬取的功能，两者结合便是一个分布式Scrapy爬虫框架。在分布式爬虫框架中，需要使用某种通信机制协调各个爬虫的工作，让每一个爬虫明确自己的任务，其中包括：

（1）当前的爬取任务，即下载+提取数据（分配任务）。

（2）当前爬取任务是否已经被其他爬虫执行过（任务去重）。

（3）如何存储爬取到的数据（数据存储）。

scrapy-redis利用Redis数据库作为多个爬虫的数据共享实现以上功能，接下来我们学习如何使用scrapy-redis进行分布式爬取。

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

第14章 分布式爬取