文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
阅读本书的前提
本书中所有的代码都已经在Python 2.7环境中进行过测试,并且可以从http://bitbucket.org/wswp/code 下载到这些源代码。理想情况下,本书未来的版本会将示例代码移植到Python 3当中。不过,现在依赖的很多库(比如Scrapy/Twisted、Mechanize和Ghost)还只支持Python 2。为了帮助阐明爬取示例,我们创建了一个示例网站,其网址为http://example. webscraping.com 。由于该网站限制了下载内容的速度,因此如果你希望自行搭建示例网站,可以从http://bitbucket.org/wswp/places 获取网站源代码和安装说明。
我们决定为本书中使用的大部分示例搭建一个定制网站,而不是抓取活跃网站,这样我们就对环境拥有了完全控制。这种方式为我们提供了稳定性,因为活跃网站要比书中的定制网站更新更加频繁,并且当你尝试运行爬虫示例时,代码可能已经无法工作。另外,定制网站允许我们自定义示例,用于阐释特定技巧并避免其他干扰。最后,活跃网站可能并不欢迎我们使用它作为学习网络爬虫的对象,并且可能会尝试封禁我们的爬虫。使用我们自己定制的网站可以规避这些风险,不过在这些例子中学到的技巧确实也可以应用到这些活跃网站当中。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论