返回介绍

1.3 关于本书:目标和用途

发布于 2024-01-30 22:48:37 字数 989 浏览 0 评论 0 收藏 0

在本书中,我们的目标是通过重点示例和真实数据集教你使用Scrapy。大部分章节将专注于爬取一个示例的房屋租赁网站。我们选择这个例子,是因为它能够代表大多数的网站爬取项目,既能让我们介绍感兴趣的变动,又不失简单。以该示例为主题,可以帮助我们聚焦于Scrapy,而不会分心。

我们将从只运行几百个页面的小爬虫开始,最终在第11章中使用几分钟的时间,将其扩展为能够处理5万个页面的分布式爬虫。在这个过程中,我们将向你介绍如何将Scrapy与MySQL、Redis和Elasticsearch等服务相连接,使用Google的地理编码API找到我们示例属性中的位置坐标,以及向Apache Spark提供数据用于预测最影响房价的关键词。

你需要做好阅读本书多次的准备。你可能需要从略读开始,先理解其架构。然后阅读一到两章,仔细学习、实验一段时间,再进入后面的章节。如果你觉得自己已经熟悉了某一章的内容,那么跳过这一章也无需担心。尤其是如果你已经了解HTML和XPath,那么就没有必要花费太多时间在第2章上面了。不用担心,对你来说本书还有很多需要学习的内容。一些章节,比如第8章,将参考书和教程的元素结合起来,深入编程概念。这就是一个例子,我们可能会阅读某一章几次,在这中间允许我们有几个星期的时间实践Scrapy。你在继续阅读后续的章节,比如以应用为主的第9章之前,不需要完美掌握第8章中的内容。阅读后续的内容,有助于你理解如何使用编程概念,如果你愿意的话,可以回过头来反复阅读几次。

为使本书既有趣,又对初学者友好,我们已经试图做了平衡。不过我们不会做的一件事情是,在本书中教授Python。对于这一主题,目前已经有了很多优秀的书籍,不过我更加建议的是以一种轻松的心态来学习。Python如此流行的一个理由是因为它比较简单、整洁,并且阅读起来更近似于英文。Scrapy是一个高级框架,无论是初学者还是专家,都需要学习。你可以将其称之为“Scrapy语言”。因此,我会推荐你通过材料来学习Python,如果你发觉自己对于Python的语法比较迷惑,那么可以通过一些Python的在线教程或Coursera等为Python初学者开设的免费在线课程予以补充。请放心,即使你不是Python专家,也能够成为一名优秀的Scrapy开发者。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文