对抗反爬虫策略

发布于 2022-09-03 09:12:46 字数 168 浏览 8 评论 0

我的问题如下:

我需要抓取一个网站的数据来做一些统计研究,但是这个网站有严格的反抓取策略。
目前看来,利用pyspider框架进行一段时间的抓取后,网站就会禁止我访问。有没有什么好的
办法使得pyspider能够抓取一段时间后停止抓取,然后隔一段时间有恢复抓取的策略呢?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

叹倦 2022-09-10 09:12:47

1.self.crawl中增加auto_crawl=True,并设置好间隔时间,比如age=60*60
这样一个小时后,pyspdier会去自动抓取网页

2.修改webui中的rate/burst,默认是1.0/3,可以改成0.2/3试试, 降低抓取频率

3.可以在crawl_config中增加proxy.

等往事风中吹 2022-09-10 09:12:47

邦盛反爬虫系统,流式数据平台+设备指纹+人机识别+数据服务,多维度剿杀爬虫,有需求请加我企鹅号:527378538(请备注是反爬虫需求)

π浅易 2022-09-10 09:12:46

IP被封了是么。非常常用的爬虫封禁方法,但是策略不一定是相同的,有的是判断你请求速率,有的判断是多少时间内的请求次数。

具体的推荐你看一篇文章,里面有专门讲如果通过代理服务器IP进行突破IP封禁策略,当然其他的几个方法也非常值得研究

为何大量网站不能抓取?爬虫突破封禁的6种常见方法

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文