当前位置：文江博客话题详情

对抗反爬虫策略

发布于 2022-09-03 09:12:46 字数 168 浏览 8 评论 0

我的问题如下：

我需要抓取一个网站的数据来做一些统计研究，但是这个网站有严格的反抓取策略。
目前看来，利用pyspider框架进行一段时间的抓取后，网站就会禁止我访问。有没有什么好的
办法使得pyspider能够抓取一段时间后停止抓取，然后隔一段时间有恢复抓取的策略呢？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（3）

叹倦 2022-09-10 09:12:47

1.self.crawl中增加auto_crawl=True，并设置好间隔时间，比如age=60*60
这样一个小时后，pyspdier会去自动抓取网页

2.修改webui中的rate/burst，默认是1.0/3,可以改成0.2/3试试，降低抓取频率

3.可以在crawl_config中增加proxy.

等往事风中吹 2022-09-10 09:12:47

邦盛反爬虫系统，流式数据平台+设备指纹+人机识别+数据服务，多维度剿杀爬虫，有需求请加我企鹅号：527378538（请备注是反爬虫需求）

π浅易 2022-09-10 09:12:46

IP被封了是么。非常常用的爬虫封禁方法，但是策略不一定是相同的，有的是判断你请求速率，有的判断是多少时间内的请求次数。

具体的推荐你看一篇文章，里面有专门讲如果通过代理服务器IP进行突破IP封禁策略，当然其他的几个方法也非常值得研究

为何大量网站不能抓取?爬虫突破封禁的6种常见方法

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

23 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

謌踐踏愛綪

文章 0 评论 0

开始看清了

文章 0 评论 0

高速公鹿

文章 0 评论 0

alipaysp_PLnULTzf66

文章 0 评论 0

热情消退

文章 0 评论 0

白色月光

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文