文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
4.2 串行爬虫
下面是串行下载时,之前开发的链接爬虫使用AlexaCallback``回调 的代码。
scrape_callback = AlexaCallback() link_crawler(seed_url=scrape_callback.seed_url, cache_callback=MongoCache(), scrape_callback=scrape_callback)
完整源码可以从https://bitbucket.org/wswp/code/src/tip/ chapter04/sequential_test.py 获取,我们可以在命令行中执行如下命令运行该脚本。
$ time python sequential_test.py ... 26m41.141s
根据该执行结果估算,串行下载时平均每个URL需要花费1.6秒。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论