文章来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

阅读本书的前提

发布于 2024-02-05 23:37:18 字数 563 浏览 0 评论 0 收藏 0

本书中所有的代码都已经在Python 2.7环境中进行过测试，并且可以从http://bitbucket.org/wswp/code 下载到这些源代码。理想情况下，本书未来的版本会将示例代码移植到Python 3当中。不过，现在依赖的很多库（比如Scrapy/Twisted、Mechanize和Ghost）还只支持Python 2。为了帮助阐明爬取示例，我们创建了一个示例网站，其网址为http://example. webscraping.com 。由于该网站限制了下载内容的速度，因此如果你希望自行搭建示例网站，可以从http://bitbucket.org/wswp/places 获取网站源代码和安装说明。

我们决定为本书中使用的大部分示例搭建一个定制网站，而不是抓取活跃网站，这样我们就对环境拥有了完全控制。这种方式为我们提供了稳定性，因为活跃网站要比书中的定制网站更新更加频繁，并且当你尝试运行爬虫示例时，代码可能已经无法工作。另外，定制网站允许我们自定义示例，用于阐释特定技巧并避免其他干扰。最后，活跃网站可能并不欢迎我们使用它作为学习网络爬虫的对象，并且可能会尝试封禁我们的爬虫。使用我们自己定制的网站可以规避这些风险，不过在这些例子中学到的技巧确实也可以应用到这些活跃网站当中。

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

阅读本书的前提

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。