返回介绍

第3章 爬虫基础

发布于 2024-01-30 22:48:37 字数 980 浏览 0 评论 0 收藏 0

这是非常重要的一章,你可能会多次阅读本章,并且经常会在寻找解决方案时回到本章中。我们首先会介绍如何安装Scrapy,然后伴随若干示例及不同的实现,转向开发Scrapy爬虫的方法论。在开始之前,我们先来看一些重要的概念。

由于我们会快速进入有趣的代码部分,因此使用本书中代码片段的能力非常重要。当你看到如下内容时:

$ echo hello world
hello world

表示你在终端输入了echo hello word(忽略美元符号),接下来的一行或几行就是你在终端上面看到的输出。

我们将会混用“终端”、“控制台”和“命令行”这几个术语,它们在本书的背景下没有太大区别。请用Google搜索并找出如何启动你所使用的平台(Windows、OS X或其他)中的控制台。你也可以在附录A中找到详细的指引。

当你看到如下内容时:

>>> print 'hi'
hi

表示你在Python或Scrapy的shell提示符中输入了print 'hi'(忽略>>>)。同样地,接下来的一行或几行就是你在终端上面看到的该命令的输出。

在本书中,你还需要编辑文件。你所使用的工具很大程度上依赖于你的环境。如果你使用Vagrant(强烈推荐),可以使用电脑或笔记本中诸如Notepad、Notepad++、Sublime Text、TextMate、Eclipse或PyCharm等编辑器。如果你有更多的Linux或UNIX使用经验,也可能更喜欢直接使用Vim或Emacs在控制台中编辑文件。这两种编辑器都很强大,不过需要一定的学习曲线。如果你是一个初学者,并且不得不在控制台中编辑某些东西,那么也可以尝试对初学者更加友好的nano编辑器。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文