前言
基础篇
第1章回顾 Python 编程
- 1.1 安装 Python
- 1.2 搭建开发环境
- 1.3 IO 编程
- 1.4 进程和线程
- 1.5 网络编程
- 1.6 小结
第2章 Web前端基础
- 2.1 W3C 标准
- 2.2 HTTP 标准
- 2.3 小结
第3章初识网络爬虫
- 3.1 网络爬虫概述
- 3.2 HTTP 请求的 Python 实现
- 3.3 小结
第4章 HTML 解析大法
- 4.1 初识 Firebug
- 4.2 正则表达式
- 4.3 强大的 BeautifulSoup
- 4.4 小结
第5章数据存储（无数据库版）
- 5.1 HTML 正文抽取
- 5.2 多媒体文件抽取
- 5.3 Email 提醒
- 5.4 小结
第6章实战项目：基础爬虫
- 6.1 基础爬虫架构及运行流程
- 6.2 URL 管理器
- 6.3 HTML 下载器
- 6.4 HTML 解析器
- 6.5 数据存储器
- 6.6 爬虫调度器
- 6.7 小结
第7章实战项目：简单分布式爬虫
- 7.1 简单分布式爬虫结构
- 7.2 控制节点
- 7.3 爬虫节点
- 7.4 小结
中级篇
第8章数据存储（数据库版）
- 8.1 SQLite
- 8.2 MySQL
- 8.3 更适合爬虫的 MongoDB
- 8.4 小结
第9章动态网站抓取
- 9.1 Ajax 和动态 HTML
- 9.2 动态爬虫1：爬取影评信息
- 9.3 PhantomJS
- 9.4 Selenium
- 9.5 动态爬虫2：爬取去哪网
- 9.6 小结
第10章 Web 端协议分析
- 10.1 网页登录 POST 分析
- 10.2 验证码问题
- 10.3 PC 站点和手机站点
- 10.4 小结
第11章终端协议分析
- 11.1 PC 客户端抓包分析
- 11.2 App 抓包分析
- 11.3 API 爬虫：爬取 MP3 资源信息
- 11.4 小结
第12章初窥 Scrapy 爬虫框架
- 12.1 Scrapy 爬虫架构
- 12.2 安装 Scrapy
- 12.3 创建 cnblogs 项目
- 12.4 创建爬虫模块
- 12.5 选择器
- 12.6 命令行工具
- 12.7 定义 Item
- 12.8 翻页功能
- 12.9 构建 Item Pipeline
- 12.10 内置数据存储
- 12.11 内置图片和文件下载方式
- 12.12 启动爬虫
- 12.13 强化爬虫
- 12.14 小结
第13章深入 Scrapy 爬虫框架
- 13.1 再看 Spider
- 13.2 Item Loader
- 13.3 再看 Item Pipeline
- 13.4 请求与响应
- 13.5 下载器中间件
- 13.6 Spider 中间件
- 13.7 扩展
- 13.8 突破反爬虫
- 13.9 小结
第14章实战项目：Scrapy 爬虫
- 14.1 创建知乎爬虫
- 14.2 定义 Item
- 14.3 创建爬虫模块
- 14.4 Pipeline
- 14.5 优化措施
- 14.6 部署爬虫
- 14.7 小结
深入篇
第15章增量式爬虫
- 15.1 去重方案
- 15.2 BloomFilter 算法
- 15.3 Scrapy 和 BloomFilter
- 15.4 小结
第16章分布式爬虫与 Scrapy
- 16.1 Redis 基础
- 16.2 Python 和 Redis
- 16.3 MongoDB 集群
- 16.4 小结
第17章实战项目：Scrapy 分布式爬虫
- 17.1 创建云起书院爬虫
- 17.2 定义 Item
- 17.3 编写爬虫模块
- 17.4 Pipeline
- 17.5 应对反爬虫机制
- 17.6 去重优化
- 17.7 小结
第18章人性化 PySpider 爬虫框架
- 18.1 PySpider 与 Scrapy
- 18.2 安装 PySpider
- 18.3 创建豆瓣爬虫
- 18.4 选择器
- 18.5 Ajax 和 HTTP 请求
- 18.6 PySpider 和 PhantomJS
- 18.7 数据存储
- 18.8 PySpider 爬虫架构
- 18.9 小结

文江博客开发文档 Python 爬虫开发与项目实战文章详情

文章来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

12.13 强化爬虫

发布于 2024-01-26 22:39:51 字数 4926 浏览 0 评论 0 收藏 0

本节讲解一下Scrapy中的调试方法、异常和控制运行状态等内容，可以帮助我们更好地使用Scrapy编写爬虫。

12.13.1　调试方法

Scrapy中共有三种比较常用的调试技术：Parse命令、Scrapy shell和logging。下面以cnblogs爬虫为例讲解以上三种技术。

1.Parse命令

检查spider输出的最基本方法是使用Parse命令。这能让你在函数层上检查spider各个部分的效果，其十分灵活并且易用，不过不能在代码中调试。

查看特定url爬取到的item，命令格式为scrapy parse--spider=<spidename>-c<parse_item>-d 2<item_url>。在命令行中切换到项目目录下，输入scrapy parse--spider=cnblogs-c parse-d 2“http://www.cnblogs.com/qiyeboy/default.html?page=1 ”，效果如图12-13所示。

图12-13　parse命令

配合使用--verbose或-v选项，可以查看各个层次的详细状态。

2.Scrapy shell

尽管Parse命令对检查spider的效果十分有用，但除了显示收到的response及输出外，其对检查回调函数内部的过程并没有提供什么便利。这个时候可以通过scrapy.shell.inspect_response方法来查看spider的某个位置中被处理的response，以确认期望的response是否到达特定位置。在CnblogsSpider类中parse方法里添加两句代码：

  def parse(self, response):
     # 实现网页的解析
     # 首先抽取所有的文章
     papers = response.xpath(".// *[@class='day']")
     # 从每篇文章中抽取数据
     from scrapy.shell import inspect_response
     inspect_response(response, self)
  
     for paper in papers:
       url = paper.xpath(".// *[@class='postTitle']/a/@href").extract()[0]
       title = paper.xpath(".// *[@class='postTitle']/a/text()").extract()[0]
       time = paper.xpath(".// *[@class='dayTitle']/a/text()").extract()[0]
       content = paper.xpath(".// *[@class='postTitle']/a/text()").extract()[0]
       item = CnblogspiderItem(url=url,title=title,time=time,content=content)
       request =  scrapy.Request(url=url,callback=self.parse_body)
       request.meta['item'] = item
       yield request
     next_page = Selector(response).re(u'<a href="(\S*)">下一页</a>')
     if next_page:
       yield scrapy.Request(url=next_page[0],callback=self.parse)

我们使用命令行执行程序时，当程序运行到inspect_response方法时会暂停，并切换进shell中，可以方便我们对当前的response进行调试，效果如图12-14所示。

图12-14　inspect_response方法使用

这时可以在shell中调试Xpath，或者查看当前响应内容。

如果调试完了，可以点击Ctrl-D来退出终端，恢复爬取，当程序再次运行到inspect_response方法时再次暂停，这样可以帮助我们了解每一个响应的细节。

3.logging

记录（logging）是另一个获取spider运行信息的方法。虽然不是那么方便，但好处是日志的内容在以后的运行中也可以看到。

以上就是Scrapy调试的三种方式，其实还有一种我比较喜欢的调试方式。首先将爬虫改写成API启动的方式，然后使用Pycharm打开整个爬虫项目，设置断点进行Debug调试，效果如图12-15所示。

图12-15　Debug调试

12.13.2　异常

下面是Scrapy提供的异常及其用法，如表12-1所示。

表12-1　Scrapy提供的异常及其用法

12.13.3　控制运行状态

Scrapy提供了内置的telnet终端，以供检查、控制Scrapy运行的进程。telnet终端是一个自带的Scrapy扩展。该扩展默认为启用，不过也可以关闭。

1.访问telnet终端

telnet终端监听设置中定义的TELNETCONSOLE_PORT默认为6023。Windows及大多数Linux发行版都自带了所需的telnet程序，所以访问本地Scrapy直接在命令行中输入：

telnet localhost 6023

2.telnet终端中可用的变量

为了方便，Scrapy telnet提供了一些默认定义的变量，如表12-2所示。

表12-2　telnet变量

3.使用示例

在终端中可以使用Scrapy引擎的est（）方法来快速查看状态，示例如下：

  >>> est()
  Execution engine status
  
  time()-engine.start_time                   : 424.530999899
  engine.has_capacity()                   : False
  len(engine.downloader.active)                 : 16
  engine.scraper.is_idle()                   : False
  engine.spider.name                      : jiandan
  engine.spider_is_idle(engine.spider)      : False
  engine.slot.closing                       : False
  len(engine.slot.inprogress)                : 18
  len(engine.slot.scheduler.dqs or [])      : 0
  len(engine.slot.scheduler.mqs)              : 1
  len(engine.scraper.slot.queue)              : 0
  len(engine.scraper.slot.active)        : 2
  engine.scraper.slot.active_size        : 160265
  engine.scraper.slot.itemproc_size         : 2
  engine.scraper.slot.needs_backout()       : False

暂停、恢复和停止Scrapy引擎：

·暂停：

  >>> engine.pause()
  >>>

·恢复：

  >>> engine.unpause()
  >>>

·停止：

  >>> engine.stop()
  Connection closed by foreign host.

4.配置telnet

在Settings.py中配置IP和端口：

·TELNETCONSOLE_PORT：默认为[6023，6073]，telnet终端使用的端口范围。如果设为None或0，则动态分配端口。

·TELNETCONSOLE_HOST：默认为’127.0.0.1‘，telnet终端监听的接口。

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

12.13 强化爬虫

12.13.1 调试方法

12.13.2 异常

12.13.3 控制运行状态

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

12.13.1　调试方法

12.13.2　异常

12.13.3　控制运行状态

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。