返回介绍

6.1 基础爬虫架构及运行流程

发布于 2024-01-26 22:39:51 字数 766 浏览 0 评论 0 收藏 0

首先讲解一下基础爬虫的架构,如图6-2所示。介绍基础爬虫包含哪些模块,各个模块之间的关系是什么。

图6-2 基础爬虫框架

基础爬虫框架主要包括五大模块,分别为爬虫调度器、URL管理器、HTML下载器、HTML解析器、数据存储器。功能分析如下:

·爬虫调度器主要负责统筹其他四个模块的协调工作。

·URL管理器负责管理URL链接,维护已经爬取的URL集合和未爬取的URL集合,提供获取新URL链接的接口。

·HTML下载器用于从URL管理器中获取未爬取的URL链接并下载HTML网页。

·HTML解析器用于从HTML下载器中获取已经下载的HTML网页,并从中解析出新的URL链接交给URL管理器,解析出有效数据交给数据存储器。

·数据存储器用于将HTML解析器解析出来的数据通过文件或者数据库的形式存储起来。

下面通过图6-3展示一下爬虫框架的动态运行流程,方便大家理解。

图6-3 运行流程

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文