如何控制爬虫的爬取速度?
如题。
因为在爬取一些网站的信息时,如果爬取过快会被封IP。所以请问大家是如何控制爬虫速度的,能够不被封IP同时还能尽可能快的爬取?
谢谢!
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
如题。
因为在爬取一些网站的信息时,如果爬取过快会被封IP。所以请问大家是如何控制爬虫速度的,能够不被封IP同时还能尽可能快的爬取?
谢谢!
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
接受
或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
发布评论
评论(7)
你可以用用前嗅的ForeSpider数据采集软件,操作简单不说,采集的数据很全,而且支持登录、Cookie、Post、https、验证码、JS、Ajax、关键词搜索等技术,一般网页上的公开数据基本都可以采到。如果网站比较复杂,软件里有自带的爬虫脚本语言,通过写脚本,就能完全采集数据了。
爬取速度更是可以自己调节线程数越大越快,除去这些,还可以设置每天的采集上限,或者定时开采,定时停止。
写爬虫的童鞋可以试试神箭手云爬虫,自带JS渲染、代理ip、验证码识别等功能,还可以发布和导出爬取的数据,生成图表等,都在云端进行,不需要安装开发环境。
控制频率 、换ip
准备一堆代理
SLEEP(30000)
你自己控制啊,广度优先。30秒抓一次。
同问