文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
6.1 基础爬虫架构及运行流程
首先讲解一下基础爬虫的架构,如图6-2所示。介绍基础爬虫包含哪些模块,各个模块之间的关系是什么。
图6-2 基础爬虫框架
基础爬虫框架主要包括五大模块,分别为爬虫调度器、URL管理器、HTML下载器、HTML解析器、数据存储器。功能分析如下:
·爬虫调度器主要负责统筹其他四个模块的协调工作。
·URL管理器负责管理URL链接,维护已经爬取的URL集合和未爬取的URL集合,提供获取新URL链接的接口。
·HTML下载器用于从URL管理器中获取未爬取的URL链接并下载HTML网页。
·HTML解析器用于从HTML下载器中获取已经下载的HTML网页,并从中解析出新的URL链接交给URL管理器,解析出有效数据交给数据存储器。
·数据存储器用于将HTML解析器解析出来的数据通过文件或者数据库的形式存储起来。
下面通过图6-3展示一下爬虫框架的动态运行流程,方便大家理解。
图6-3 运行流程
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论