关于软件设计的问题,多线程的PageProcessor和多线程的Pipeline的设计
请教一下,垂直爬虫在很多时候会遇到反爬虫的问题,如果限制了时间段内访问的次数,多线程的Downloader并没有多大用处。反而下载下来的页面数据多线程处理会提高效率,为啥没看到多线程的PageProcessor和多线程的Pipeline的设计?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
一般来说,下载速度还是爬虫的瓶颈,而PageProcessor/Pipeline的速度一般来说都很快,虽然可以提高效率但是差别不大。
即使被反爬虫了,多个site下载的时候,多线程还是很重要的。