返回介绍

本书内容

发布于 2024-01-30 22:48:37 字数 932 浏览 0 评论 0 收藏 0

第1章,Scrapy简介,介绍本书和Scrapy,可以让你对该框架及本书剩余部分有一个明确的期望。

第2章,理解HTML和XPath,旨在使爬虫初学者能够快速了解Web相关技术以及我们后续将会使用的技巧。

第3章,爬虫基础,介绍了如何安装Scrapy,并爬取一个网站。我们通过向你展示每一个行动背后的方法和思路,逐步开发该示例。学习完本章之后,你将能够爬取大部分简单的网站。

第4章,从Scrapy到移动应用,展示了如何使用我们的爬虫填充数据库并输出给移动应用。本章过后,你将清晰地认识到爬虫在市场方面所带来的好处。

第5章,迅速的爬虫技巧,展示了更强大的爬虫功能,包括登录、更快速地抓取、消费API以及爬取URL列表。

第6章,部署到Scrapinghub,展示了如何将爬虫部署到Scrapinghub的云服务器中,并享受其带来的可用性、易部署以及可控性等特性。

第7章,配置与管理,以组织良好的表现形式介绍了大量的Scrapy功能,这些功能可以通过Scrapy配置启用或调整。

第8章,Scrapy编程,通过展示如何使用底层的Twisted引擎和Scrapy架构对其功能的各个方面进行扩展,将我们的知识带入一个全新的水平。

第9章,管道秘诀,提供了许多示例,在这里我们修改了Scrapy的一些功能,在不会造成性能退化的情况下,将数据插入到数据库(比如MySQL、Elasticsearch及Redis)、接口API,以及遗留应用中。

第10章,理解Scrapy性能,将帮助我们理解Scrapy的时间是如何花费的,以及我们需要怎么做来提升其性能。

第11章,使用Scrapyd与实时分析进行分布式爬取,这是本书最后一章,展示了如何在多台服务器中使用Scrapyd实现横向扩展,以及如何将爬取得到的数据提供给Apache Spark服务器以执行数据流分析。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文