本书内容

发布于 2024-01-30 22:48:37 字数 932 浏览 0 评论 0 收藏 0

第1章，Scrapy简介，介绍本书和Scrapy，可以让你对该框架及本书剩余部分有一个明确的期望。

第2章，理解HTML和XPath，旨在使爬虫初学者能够快速了解Web相关技术以及我们后续将会使用的技巧。

第3章，爬虫基础，介绍了如何安装Scrapy，并爬取一个网站。我们通过向你展示每一个行动背后的方法和思路，逐步开发该示例。学习完本章之后，你将能够爬取大部分简单的网站。

第4章，从Scrapy到移动应用，展示了如何使用我们的爬虫填充数据库并输出给移动应用。本章过后，你将清晰地认识到爬虫在市场方面所带来的好处。

第5章，迅速的爬虫技巧，展示了更强大的爬虫功能，包括登录、更快速地抓取、消费API以及爬取URL列表。

第6章，部署到Scrapinghub，展示了如何将爬虫部署到Scrapinghub的云服务器中，并享受其带来的可用性、易部署以及可控性等特性。

第7章，配置与管理，以组织良好的表现形式介绍了大量的Scrapy功能，这些功能可以通过Scrapy配置启用或调整。

第8章，Scrapy编程，通过展示如何使用底层的Twisted引擎和Scrapy架构对其功能的各个方面进行扩展，将我们的知识带入一个全新的水平。

第9章，管道秘诀，提供了许多示例，在这里我们修改了Scrapy的一些功能，在不会造成性能退化的情况下，将数据插入到数据库（比如MySQL、Elasticsearch及Redis）、接口API，以及遗留应用中。

第10章，理解Scrapy性能，将帮助我们理解Scrapy的时间是如何花费的，以及我们需要怎么做来提升其性能。

第11章，使用Scrapyd与实时分析进行分布式爬取，这是本书最后一章，展示了如何在多台服务器中使用Scrapyd实现横向扩展，以及如何将爬取得到的数据提供给Apache Spark服务器以执行数据流分析。

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据