前言
基础篇
第1章回顾 Python 编程
- 1.1 安装 Python
- 1.2 搭建开发环境
- 1.3 IO 编程
- 1.4 进程和线程
- 1.5 网络编程
- 1.6 小结
第2章 Web前端基础
- 2.1 W3C 标准
- 2.2 HTTP 标准
- 2.3 小结
第3章初识网络爬虫
- 3.1 网络爬虫概述
- 3.2 HTTP 请求的 Python 实现
- 3.3 小结
第4章 HTML 解析大法
- 4.1 初识 Firebug
- 4.2 正则表达式
- 4.3 强大的 BeautifulSoup
- 4.4 小结
第5章数据存储（无数据库版）
- 5.1 HTML 正文抽取
- 5.2 多媒体文件抽取
- 5.3 Email 提醒
- 5.4 小结
第6章实战项目：基础爬虫
- 6.1 基础爬虫架构及运行流程
- 6.2 URL 管理器
- 6.3 HTML 下载器
- 6.4 HTML 解析器
- 6.5 数据存储器
- 6.6 爬虫调度器
- 6.7 小结
第7章实战项目：简单分布式爬虫
- 7.1 简单分布式爬虫结构
- 7.2 控制节点
- 7.3 爬虫节点
- 7.4 小结
中级篇
第8章数据存储（数据库版）
- 8.1 SQLite
- 8.2 MySQL
- 8.3 更适合爬虫的 MongoDB
- 8.4 小结
第9章动态网站抓取
- 9.1 Ajax 和动态 HTML
- 9.2 动态爬虫1：爬取影评信息
- 9.3 PhantomJS
- 9.4 Selenium
- 9.5 动态爬虫2：爬取去哪网
- 9.6 小结
第10章 Web 端协议分析
- 10.1 网页登录 POST 分析
- 10.2 验证码问题
- 10.3 PC 站点和手机站点
- 10.4 小结
第11章终端协议分析
- 11.1 PC 客户端抓包分析
- 11.2 App 抓包分析
- 11.3 API 爬虫：爬取 MP3 资源信息
- 11.4 小结
第12章初窥 Scrapy 爬虫框架
- 12.1 Scrapy 爬虫架构
- 12.2 安装 Scrapy
- 12.3 创建 cnblogs 项目
- 12.4 创建爬虫模块
- 12.5 选择器
- 12.6 命令行工具
- 12.7 定义 Item
- 12.8 翻页功能
- 12.9 构建 Item Pipeline
- 12.10 内置数据存储
- 12.11 内置图片和文件下载方式
- 12.12 启动爬虫
- 12.13 强化爬虫
- 12.14 小结
第13章深入 Scrapy 爬虫框架
- 13.1 再看 Spider
- 13.2 Item Loader
- 13.3 再看 Item Pipeline
- 13.4 请求与响应
- 13.5 下载器中间件
- 13.6 Spider 中间件
- 13.7 扩展
- 13.8 突破反爬虫
- 13.9 小结
第14章实战项目：Scrapy 爬虫
- 14.1 创建知乎爬虫
- 14.2 定义 Item
- 14.3 创建爬虫模块
- 14.4 Pipeline
- 14.5 优化措施
- 14.6 部署爬虫
- 14.7 小结
深入篇
第15章增量式爬虫
- 15.1 去重方案
- 15.2 BloomFilter 算法
- 15.3 Scrapy 和 BloomFilter
- 15.4 小结
第16章分布式爬虫与 Scrapy
- 16.1 Redis 基础
- 16.2 Python 和 Redis
- 16.3 MongoDB 集群
- 16.4 小结
第17章实战项目：Scrapy 分布式爬虫
- 17.1 创建云起书院爬虫
- 17.2 定义 Item
- 17.3 编写爬虫模块
- 17.4 Pipeline
- 17.5 应对反爬虫机制
- 17.6 去重优化
- 17.7 小结
第18章人性化 PySpider 爬虫框架
- 18.1 PySpider 与 Scrapy
- 18.2 安装 PySpider
- 18.3 创建豆瓣爬虫
- 18.4 选择器
- 18.5 Ajax 和 HTTP 请求
- 18.6 PySpider 和 PhantomJS
- 18.7 数据存储
- 18.8 PySpider 爬虫架构
- 18.9 小结

文章来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

13.7 扩展

发布于 2024-01-26 22:39:51 字数 6366 浏览 0 评论 0 收藏 0

扩展框架提供了一种机制，你可以将自定义功能绑定到Scrapy中。扩展只是正常的Python类，它们会在Scrapy启动时被实例化、初始化。

13.7.1　配置扩展

扩展需要在settings中进行设置，和中间件的设置类似。扩展在扩展类被实例化时加载和激活，实例化代码必须在类的构造函数（__init__）中执行。要使得扩展可用，需要把它添加到Settings的EXTENSIONS配置中。在EXTENSIONS中，每个扩展都使用一个字符串表示，即扩展类的全Python路径。例如：

  EXTENSIONS = {
     'scrapy.extensions.corestats.CoreStats': 500,
     'scrapy.telnet.TelnetConsole': 500,
  }

EXTENSIONS配置的格式和中间件配置的格式差不多，都是一个字典，键是扩展类的路径，值是顺序，它定义扩展加载的顺序。扩展顺序不像中间件的顺序那么重要，扩展之间一般没有关联。Scrapy中的内置扩展设置EXTENSIONS_BASE如下：

·'scrapy.extensions.corestats.CoreStats'：0

·'scrapy.telnet.TelnetConsole'：0

·'scrapy.extensions.memusage.MemoryUsage'：0

·'scrapy.extensions.memdebug.MemoryDebugger'：0

·'scrapy.extensions.closespider.CloseSpider'：0

·'scrapy.extensions.feedexport.FeedExporter'：0

·'scrapy.extensions.logstats.LogStats'：0

·'scrapy.extensions.spiderstate.SpiderState'：0

·'scrapy.extensions.throttle.AutoThrottle'：0

扩展一般分为三种状态：可用的（Available）、开启的（enabled）和禁用的（disabled）。并不是所有可用的扩展都会被开启。一些扩展经常依赖一些特别的配置，比如HTTP Cache扩展是可用的但默认是禁用的，除非设置了HTTPCACHE_ENABLED配置项。如何禁用一个默认开启的扩展呢？和中间件的禁用一样，需要将其顺序（order）设置为None。比如：

  EXTENSIONS = {
     'scrapy.extensions.corestats.CoreStats': None,
  }

13.7.2　定制扩展

如何定制我们自己的扩展，强化Scrapy的功能才是我们比较关心的问题。扩展类是一个不同的Python类，但是如果想操作Scrapy的功能，需要一个入口：from_crawler类方法，它接收一个Crawler类的实例，通过这个对象可以访问settings（设置）、signals（信号）、stats（状态），以便控制爬虫的行为。通常来说，扩展需要关联到signals并执行它们触发的任务，如果from_crawler方法抛出NotConfigured异常，扩展会被禁用。否则，扩展会被开启。下面通过一个例子来实现简单扩展，功能是当出现以下事件时，记录一条日志：

·Spider被打开。

·Spider被关闭。

·爬取了特定数量的Item。

扩展代码如下：

  import logging
  from scrapy import signals
  from scrapy.exceptions import NotConfigured
  
  logger = logging.getLogger(__name__)
  
  class SpiderOpenCloseLogging(object):
  
     def __init__(self, item_count):
       self.item_count = item_count
  
       self.items_scraped = 0
  
     @classmethod
     def from_crawler(cls, crawler):
       # 首先检查一下是否存在相应的配置，如果不存在则抛出NotConfigured异常
       if not crawler.settings.getbool('MYEXT_ENABLED'):
  
            raise NotConfigured
  
       # 从setting中获取MYEXT_ITEMCOUNT的值
  
       item_count = crawler.settings.getint('MYEXT_ITEMCOUNT', 1000)
  
       # 初始化扩展实例
  
       ext = cls(item_count)
  
       # 将扩展中的spider_opened、spider_closed和item_scraped连接到相应信号处，进行触发。
  
       crawler.signals.connect(ext.spider_opened, signal=signals.spider_opened)
  
       crawler.signals.connect(ext.spider_closed, signal=signals.spider_closed)
  
       crawler.signals.connect(ext.item_scraped, signal=signals.item_scraped)
  
       # 扩展实例返回
       return ext
  
     def spider_opened(self, spider):
       logger.info("opened spider %s", spider.name)
  
     def spider_closed(self, spider):
       logger.info("closed spider %s", spider.name)
  
     def item_scraped(self, item, spider):
       self.items_scraped += 1
       if self.items_scraped % self.item_count == 0:
            logger.info("scraped %d items", self.items_scraped)

编写扩展依赖的Crawler实例，其中信号的设置很重要。下面说一下内置的信号。

1.engine_started

原型：scrapy.signals.engine_started（）

说明：当Scrapy引擎启动爬取时发送该信号。该信号支持返回deferreds。

2.engine_stopped

原型：scrapy.signals.engine_stopped（）

说明：当Scrapy引擎停止时发送该信号，例如爬取结束。该信号支持返回deferreds。

3.item_scraped

原型：scrapy.signals.item_scraped（item，response，spider）

参数：item（dict或Item对象）：爬取到的item

spider（Spider对象）：爬取item的spider

response（Response对象）：提取item的response

说明：当item被爬取，并通过所有Item Pipeline后（没有被丢弃（dropped），发送该信号。该信号支持返回deferreds。

4.item_dropped

原型：scrapy.signals.item_dropped（item，exception，spider）

参数：item（dict或Item对象）：Item Pipeline丢弃的item。

spider（Spider对象）：爬取item的spider。

exception（DropItem异常）：导致item被丢弃的异常。

说明：当item通过Item Pipeline，有些pipeline抛出DropItem异常，丢弃Item时，该信号被发送。该信号支持返回deferreds。

5.spider_closed

原型：scrapy.signals.spider_closed（spider，reason）

参数：spider（Spider对象）：关闭的spider。

reason（str）：描述Spider被关闭的原因的字符串。如果Spider是由于完成爬取而被关闭，则其为“finished”。否则，如果Spider是被引擎的close_spider方法所关闭，则其为调用该方法时传入的reason参数（默认为“cancelled”）。如果引擎被关闭（例如，输入Ctrl-C），则其为“shutdown”。

说明：当某个Spider被关闭时，该信号被发送。该信号可以用来释放每个Spider在spider_opened时占用的资源。该信号支持返回deferreds。

6.spider_opened

原型：scrapy.signals.spider_opened（spider）

参数：spider（Spider对象）：开启的spider。

说明：当spider开始爬取时发送该信号。该信号一般用来分配Spider的资源，不过它也能做任何事。该信号支持返回deferreds。

7.spider_idle

原型：scrapy.signals.spider_idle（spider）

参数：spider（Spider对象）：空闲的Spider。

说明：当Spider进入空闲（idle）状态时该信号被发送。空闲意味着：

·Requests正在等待被下载。

·Requests被调度。

·Items正在Item Pipeline中被处理。

当该信号的所有处理器（handler）被调用后，如果Spider仍然保持空闲状态，引擎将会关闭该Spider。当Spider被关闭后，spider_closed信号将被发送，可以在spider_idle处理器中调度某些请求来避免spider被关闭。

该信号不支持返回deferreds。

8.spider_error

原型：scrapy.signals.spider_error（failure，response，spider）

参数：failure（Failure对象）：以Twisted Failure对象抛出的异常。

response（Response对象）：当异常被抛出时被处理的response。

spider（Spider对象）：抛出异常的Spider。

说明：当Spider的回调函数产生错误时，例如抛出异常，该信号被发送。

9.request_scheduled

原型：scrapy.signals.request_scheduled（request，spider）

参数：request（Request对象）：到达调度器的Request。

spider（Spider对象）：产生该Request的Spider。

说明：当引擎调度一个Request对象用于下载时，该信号被发送。该信号不支持返回deferreds。

10.response_received

原型：scrapy.signals.response_received（response，request，spider）

参数：response（Response对象）：接收到的response。

request（Request对象）：生成response的request。

spider（Spider对象）：response所对应的spider。

说明：当引擎从downloader获取到一个新的Response时发送该信号。该信号不支持返回deferreds。

11.response_downloaded

原型：scrapy.signals.response_downloaded（response，request，spider）

参数：response（Response对象）：下载的response。

request（Request对象）：生成response的request。

spider（Spider对象）：response所对应的spider。

说明：当一个HTTPResponse被下载时，由downloader发送该信号。该信号不支持返回deferreds。

13.7.3　内置扩展

下面简要介绍一下Scrapy的内置扩展，方便我们使用，同时也可以参考内置扩展的源码来拓展自己的功能。常见内置扩展如表13-4所示。

表13-4　常见内置扩展

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

13.7 扩展

13.7.1 配置扩展

13.7.2 定制扩展

13.7.3 内置扩展

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

13.7.1　配置扩展

13.7.2　定制扩展

13.7.3　内置扩展

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。