如何控制爬虫的爬取速度?

发布于 2021-12-04 06:59:59 字数 94 浏览 1020 评论 7

如题。

因为在爬取一些网站的信息时,如果爬取过快会被封IP。所以请问大家是如何控制爬虫速度的,能够不被封IP同时还能尽可能快的爬取?

谢谢!

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(7

倚栏听风 2021-12-06 14:55:32

你可以用用前嗅的ForeSpider数据采集软件,操作简单不说,采集的数据很全,而且支持登录、Cookie、Post、https、验证码、JS、Ajax、关键词搜索等技术,一般网页上的公开数据基本都可以采到。如果网站比较复杂,软件里有自带的爬虫脚本语言,通过写脚本,就能完全采集数据了。

爬取速度更是可以自己调节线程数越大越快,除去这些,还可以设置每天的采集上限,或者定时开采,定时停止。

凌乱心跳 2021-12-06 14:55:22

写爬虫的童鞋可以试试神箭手云爬虫,自带JS渲染、代理ip、验证码识别等功能,还可以发布和导出爬取的数据,生成图表等,都在云端进行,不需要安装开发环境。

最偏执的依靠 2021-12-06 14:54:51

控制频率 、换ip

已下线请稍等 2021-12-06 14:08:26

准备一堆代理

尐偏执 2021-12-06 12:45:51

SLEEP(30000)

甜扑 2021-12-06 12:21:15

你自己控制啊,广度优先。30秒抓一次。

坚持沉默 2021-12-06 01:41:57

同问

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文