文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
第3章 爬虫基础
这是非常重要的一章,你可能会多次阅读本章,并且经常会在寻找解决方案时回到本章中。我们首先会介绍如何安装Scrapy,然后伴随若干示例及不同的实现,转向开发Scrapy爬虫的方法论。在开始之前,我们先来看一些重要的概念。
由于我们会快速进入有趣的代码部分,因此使用本书中代码片段的能力非常重要。当你看到如下内容时:
$ echo hello world hello world
表示你在终端输入了echo hello word(忽略美元符号),接下来的一行或几行就是你在终端上面看到的输出。
我们将会混用“终端”、“控制台”和“命令行”这几个术语,它们在本书的背景下没有太大区别。请用Google搜索并找出如何启动你所使用的平台(Windows、OS X或其他)中的控制台。你也可以在附录A中找到详细的指引。
当你看到如下内容时:
>>> print 'hi' hi
表示你在Python或Scrapy的shell提示符中输入了print 'hi'(忽略>>>)。同样地,接下来的一行或几行就是你在终端上面看到的该命令的输出。
在本书中,你还需要编辑文件。你所使用的工具很大程度上依赖于你的环境。如果你使用Vagrant(强烈推荐),可以使用电脑或笔记本中诸如Notepad、Notepad++、Sublime Text、TextMate、Eclipse或PyCharm等编辑器。如果你有更多的Linux或UNIX使用经验,也可能更喜欢直接使用Vim或Emacs在控制台中编辑文件。这两种编辑器都很强大,不过需要一定的学习曲线。如果你是一个初学者,并且不得不在控制台中编辑某些东西,那么也可以尝试对初学者更加友好的nano编辑器。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论