当前位置：文江博客话题详情

pyspider 遇到防爬页面怎么处理？

发布于 2022-09-04 02:35:58 字数 168 浏览 10 评论 0

遇到页面防爬，返回页面说需要验证是否是机器人输入验证码这种情况要怎么处理？这时候这个页面返回的是200，爬虫认为正常爬过页面了，但是实际并没有获得有效数据。
是通过判断抓没抓到数据，然后抛异常重新爬吗？这种情应该怎么处理

不知道我通过抛异常重爬这种方法是否正确？

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

情话已封尘 2022-09-11 02:35:58

抛出异常，让 pyspider 自己重试（前提是没被封 ip）

回复收藏 0

翻了热茶 2022-09-11 02:35:58

你可以先验证本页面是否需要验证码，如果不需要直接爬；需要的话就把这个地址存下来。
当你的爬虫爬完了所有的地址，回过头再来处理这些需要需要的验证码的地址。

同时，为什么会出现爬虫被发现，我觉得你应该手工去访问几个页面，看看在headers里面是否有某些特定信息，包括不限于Rerferer。同时你需要注意：

代理IP qiyeboy/IPProxys
模拟UA
适当的休眠

我觉得你应该还是去用浏览器访问试试，看看header里面会不会出现特定的信息，还有去看看网页源码有没有什么js的限制

朋友一个很二的限制爬虫方法：不加载favicon就被认定为爬虫2333

回复收藏 0

蓝颜夕 2022-09-11 02:35:58

我认为应该加上相应的header信息，伪装成浏览器来进行访问。

回复收藏 0

小…红帽 2022-09-11 02:35:58

使用代理ip来抓取网页吧，我个人觉得sleep()或者更换header信息都没什么用，因为有的网站是限制你ip在一段时间内的访问量，但网上那些代理ip的存活率很低，好做法是维护着一个代理池，把抓取的ip可以用的维护，不可用的去除，但效率真的不好

回复收藏 0

~没有更多了~

关于作者

你与清晨阳光

暂无简介

0 文章

0 评论

23 人气

关注发私信

謌踐踏愛綪

文章 0 评论 0

关注

开始看清了

文章 0 评论 0

关注

高速公鹿

文章 0 评论 0

关注

alipaysp_PLnULTzf66

文章 0 评论 0

关注

热情消退

文章 0 评论 0

关注

白色月光

文章 0 评论 0

友情链接

文江博客

pyspider 遇到防爬页面怎么处理？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签