scrapy爬取, 遇到重定向?如何破?
爬取链接: self.start_urls = ["https://www.nature.com/nchem/research/index.html"]
提示:
DEBUG: Redirecting (302) to <GET https://idp.nature.com/authorize?response_type=cookie&client_id=foxtrot&redirect_uri=http%3A%2F%2Fwww.nature.com%2Fnchem%2Fresearch%2Findex.html%3Ffoxtrotcallback%3Dtrue> from <GET https://www.nature.com/nchem/research/index.html>
ps:我直接爬https://idp.nature.com/author...又重定向到原来地址
这个问题能解决吗?请教各位!
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
设置user-agent试试。
还有是对方检测到请求里没有cookie之类的东东,就302到专门设置cookie的地址,设置完后,又会跳转回去。
eg:
import requests
r = requests.get('http://github.com',allow_redirects=False)
allow_redirects=False#设置这个属性为False则是不允许重定向,反之可以重定向