文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
3.4 本章小结
本章中,我们了解到缓存已下载的网页可以节省时间,并能最小化重新爬取网站所耗费的带宽。缓存的主要缺点是会占用磁盘空间,不过我们可以使用压缩的方式减少空间占用。此外,在类似MongoDB等现有数据库的基础之上创建缓存,可以避免文件系统的各种限制。
下一章,我们会为爬虫添加并发下载多个网页的功能,从而使爬虫运行得更快。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论