前言
基础篇
第1章回顾 Python 编程
- 1.1 安装 Python
- 1.2 搭建开发环境
- 1.3 IO 编程
- 1.4 进程和线程
- 1.5 网络编程
- 1.6 小结
第2章 Web前端基础
- 2.1 W3C 标准
- 2.2 HTTP 标准
- 2.3 小结
第3章初识网络爬虫
- 3.1 网络爬虫概述
- 3.2 HTTP 请求的 Python 实现
- 3.3 小结
第4章 HTML 解析大法
- 4.1 初识 Firebug
- 4.2 正则表达式
- 4.3 强大的 BeautifulSoup
- 4.4 小结
第5章数据存储（无数据库版）
- 5.1 HTML 正文抽取
- 5.2 多媒体文件抽取
- 5.3 Email 提醒
- 5.4 小结
第6章实战项目：基础爬虫
- 6.1 基础爬虫架构及运行流程
- 6.2 URL 管理器
- 6.3 HTML 下载器
- 6.4 HTML 解析器
- 6.5 数据存储器
- 6.6 爬虫调度器
- 6.7 小结
第7章实战项目：简单分布式爬虫
- 7.1 简单分布式爬虫结构
- 7.2 控制节点
- 7.3 爬虫节点
- 7.4 小结
中级篇
第8章数据存储（数据库版）
- 8.1 SQLite
- 8.2 MySQL
- 8.3 更适合爬虫的 MongoDB
- 8.4 小结
第9章动态网站抓取
- 9.1 Ajax 和动态 HTML
- 9.2 动态爬虫1：爬取影评信息
- 9.3 PhantomJS
- 9.4 Selenium
- 9.5 动态爬虫2：爬取去哪网
- 9.6 小结
第10章 Web 端协议分析
- 10.1 网页登录 POST 分析
- 10.2 验证码问题
- 10.3 PC 站点和手机站点
- 10.4 小结
第11章终端协议分析
- 11.1 PC 客户端抓包分析
- 11.2 App 抓包分析
- 11.3 API 爬虫：爬取 MP3 资源信息
- 11.4 小结
第12章初窥 Scrapy 爬虫框架
- 12.1 Scrapy 爬虫架构
- 12.2 安装 Scrapy
- 12.3 创建 cnblogs 项目
- 12.4 创建爬虫模块
- 12.5 选择器
- 12.6 命令行工具
- 12.7 定义 Item
- 12.8 翻页功能
- 12.9 构建 Item Pipeline
- 12.10 内置数据存储
- 12.11 内置图片和文件下载方式
- 12.12 启动爬虫
- 12.13 强化爬虫
- 12.14 小结
第13章深入 Scrapy 爬虫框架
- 13.1 再看 Spider
- 13.2 Item Loader
- 13.3 再看 Item Pipeline
- 13.4 请求与响应
- 13.5 下载器中间件
- 13.6 Spider 中间件
- 13.7 扩展
- 13.8 突破反爬虫
- 13.9 小结
第14章实战项目：Scrapy 爬虫
- 14.1 创建知乎爬虫
- 14.2 定义 Item
- 14.3 创建爬虫模块
- 14.4 Pipeline
- 14.5 优化措施
- 14.6 部署爬虫
- 14.7 小结
深入篇
第15章增量式爬虫
- 15.1 去重方案
- 15.2 BloomFilter 算法
- 15.3 Scrapy 和 BloomFilter
- 15.4 小结
第16章分布式爬虫与 Scrapy
- 16.1 Redis 基础
- 16.2 Python 和 Redis
- 16.3 MongoDB 集群
- 16.4 小结
第17章实战项目：Scrapy 分布式爬虫
- 17.1 创建云起书院爬虫
- 17.2 定义 Item
- 17.3 编写爬虫模块
- 17.4 Pipeline
- 17.5 应对反爬虫机制
- 17.6 去重优化
- 17.7 小结
第18章人性化 PySpider 爬虫框架
- 18.1 PySpider 与 Scrapy
- 18.2 安装 PySpider
- 18.3 创建豆瓣爬虫
- 18.4 选择器
- 18.5 Ajax 和 HTTP 请求
- 18.6 PySpider 和 PhantomJS
- 18.7 数据存储
- 18.8 PySpider 爬虫架构
- 18.9 小结

文章来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

14.6 部署爬虫

发布于 2024-01-26 22:39:51 字数 5495 浏览 0 评论 0 收藏 0

知乎爬虫项目已经完成，下面我们需要将爬虫部署到服务器中。之前我们讲到的使用命令行或者API启动方式，略显粗糙，仅适合个人调试，不适合应用到实际的工程项目中，我们需要一种灵活稳定的方式启动和控制爬虫。

14.6.1　Scrapyd

Scrapy官方为我们提供了一个部署爬虫非常有用的工具Scrapyd。Scrapyd是运行Scrapy爬虫的服务程序，它支持以HTTP命令方式通过JSON API进行发布、删除、启动、停止爬虫程序的操作，而且Scrapyd可以同时管理多个爬虫，每个爬虫还可以有多个版本，也是部署分布式爬虫的有效手段。官方文档：http://scrapyd.readthedocs.io/en/latest/ 。

1.安装Scrapyd

主要有两种安装方式：

·pip install scrapyd，安装的版本可能不是最新版本。

·从https://github.com/scrapy/scrapyd 中下载源码，运行python setup.py install命令进行安装。

2.启动Scrapyd

在命令行中输入scrapyd，即可完成启动，如图14-8所示。默认情况下scrapyd运行后会侦听6800端口。

图14-8　启动Scrapyd

在浏览器中输入：http://127.0.0.1:6800/ ，可以打开Scrapyd界面，如图14-9所示。

图14-9　Scrapyd界面

3.Scrapyd API介绍

Scrapyd主要支持10种操作方式：

·获取Scrapyd状态：http://127.0.0.1：6800/daemonstatus.json 。GET请求方式。响应类似{”status“：“ok”，“running”：“0”，“pending”：“0”，“finished”：“0”，“node_name”：“node-name”} 获取项目列表：http://127.0.0.1:6800/listprojects.json ，GET请求方式。响应类似{“status”：“ok”，“projects”：[“myproject”，“otherproject”]}。

·获取项目下已发布的爬虫列表：http://127.0.0.1：6800/listspiders.jsonproject=myproject 。GET请求方式，参数为项目名称myproject。响应类似{“status”：“ok”，“spiders”：[“spider1”，“spider2”，“spider3”]}。

·获取已发布的爬虫版本列表：http://127.0.0.1：6800/listversions.jsonproject=myproject 。GET请求方式，参数为项目名称myproject。响应类似{“status”：“ok”，“versions”：[“r99”，“r156”]}。

·获取爬虫运行状态：http://127.0.0.1：6800/listjobs.jsonproject=myproject 。GET请求方式，参数为项目名称myproject。响应类似{“status”：“ok”，“pending”：[{“id”：“78391cc0fcaf11e1b0090800272a6d06”，“spider”：“spider1”}]，“running”：[{“id”：“422e608f9f28cef127b3d5ef93fe9399”，“spider”：“spider2”，“start_time”：“2012-09-1210：14：03.594664”}]，“finished”：[{“id”：“2f16646cfcaf11e1b0090800272a6d06”，“spider”：“spider3”，“start_time”：“2012-09-1210：14：03.594664”，“end_time”：“2012-09-1210：24：03.594664”}]}

·启动服务器上某一爬虫：http://127.0.0.1：6800/schedule.json 。POST请求方式，参数为“project”：myproject，“spider”：myspider，myproject为项目名称，myspider为爬虫名称。响应类似：{“status”：“ok”，“jobid”：“6487ec79947edab326d6db28a2d86511e8247444”}

·删除某一版本爬虫：http://127.0.0.1:6800/delversion.json 。POST请求方式，参数为“project”：myproject，“version”：myversion，myproject为项目名称，version为爬虫版本。

·删除某一工程，并将工程下各版本爬虫一起删除：http://127.0.0.1:6800/delproject.json 。POST请求方式，参数为“project”：myproject，myproject为项目名称。响应类似：{“status”：“ok”}

·给工程添加版本，如果工程不存在则创建：http://127.0.0.1:6800/addversion.json 。POST请求方式，参数为“project”：myproject，“version”：myversion，myproject为项目名称，version为项目版本。响应类似{“status”：“ok”，“spiders”：3}。

·取消一个运行的爬虫任务：http://127.0.0.1:6800/cancel.json 。POST请求方式，参数为“project”：myproject，“job”：jobid，myproject为项目名称，jobid为任务的id。响应类似{“status”：“ok”，“prevstate”：“running”}

大家只需要使用request发送请求，解析json响应就可以灵活地控制爬虫。但是上述API中还少了如何发布爬虫程序到Scrapyd服务中的功能，那是因为额外提供了Scrapyd-client发布工具。

14.6.2　Scrapyd-client

Scrapyd-client是一个专门用来发布scrapy爬虫的工具，安装该程序之后会自动在Python安装目录下scripts文件夹中生成scrapyd-deploy工具，其实类似于Python脚本，可以直接使用python scrapyd-deploy的方式运行。

1.安装Scrapyd-client

主要有两种安装方式：

·pip install Scrapyd-client，安装的版本可能不是最新版本。

·从https://github.com/scrapy/scrapyd-client 中下载源码，运行python setup.py install命令进行安装。

2.使用Scrapyd-client

安装完成后，将scrapyd-deploy拷贝到爬虫项目目录下，与scrapy.cfg在同一级目录。下面我们需要修改scrapy.cfg文件，默认生成的scrapy.cfg文件内容如下：

  [settings]
  default = zhihuCrawl.settings
  
  [deploy]
  # url = http://127.0.0.1:6800/
  project = zhihuCrawl

首先去掉url前的注释符号，url是scrapyd服务器的网址，project=zhihuCrawl为项目名称，可以随意起。修改[deploy]为[deploy：100]，表示把爬虫发布到名为100的爬虫服务器上，一般在需要同时发布爬虫到多个目标服务器时使用。修改如下：

  [settings]
  default = zhihuCrawl.settings
  
  [deploy:100]
  url = http://127.0.0.1:6800/
  project = zhihuCrawl

配置完成后，就可以使用scrapyd-deploy进行爬虫的发布了，命令如下：

  scrapyd-deploy <target> -p <project> --version <version>

参数解释：

·target：deploy后面的名称。

·project：自行定义名称，跟爬虫的工程名字无关。

·version：自定义版本号，不写的话默认为当前时间戳。

下面将命令行切换到工程目录下，运行：python scrapyd-deploy 100-p zhihu--version ver2016011，如图14-10所示。

发布完成后根据API发送启动爬虫的请求，爬虫就可以正常工作了。爬取一段时间后，数据存储效果如图14-11所示。

图14-10　发布爬虫

图14-11　数据存储

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

14.6 部署爬虫

14.6.1 Scrapyd

14.6.2 Scrapyd-client

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

14.6.1　Scrapyd

14.6.2　Scrapyd-client

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。