scrapy爬取, 遇到重定向?如何破?

发布于 2022-09-05 20:17:19 字数 698 浏览 21 评论 0

爬取链接: self.start_urls = ["https://www.nature.com/nchem/research/index.html"]

提示:

DEBUG: Redirecting (302) to <GET https://idp.nature.com/authorize?response_type=cookie&client_id=foxtrot&redirect_uri=http%3A%2F%2Fwww.nature.com%2Fnchem%2Fresearch%2Findex.html%3Ffoxtrotcallback%3Dtrue> from <GET https://www.nature.com/nchem/research/index.html>

ps:我直接爬https://idp.nature.com/author...又重定向到原来地址

这个问题能解决吗?请教各位!

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

瞄了个咪的 2022-09-12 20:17:21

设置user-agent试试。
还有是对方检测到请求里没有cookie之类的东东,就302到专门设置cookie的地址,设置完后,又会跳转回去。

隐诗 2022-09-12 20:17:20

eg:
import requests
r = requests.get('http://github.com',allow_redirects=False)

allow_redirects=False#设置这个属性为False则是不允许重定向,反之可以重定向

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文