用python requests包来get百度百科网页报错
代码如下
import requests
headers = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36',
'Connection': 'keep-alive',
'Host': 'baike.baidu.com',
'Accept-Encoding': 'gzip, deflate',
'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3',
'Upgrade-Insecure-Requests': 1
}
r = requests.get("https://baike.baidu.com/item/科比·布莱恩特/318773")
print(r.status_code)
运行报错:
requests.exceptions.TooManyRedirects: Exceeded 30 redirects.
浏览器访问就不会有重定向,难道是百度发现了这是爬虫行为?
求教大家如何解决?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
你的代码这行没把headers使用上去
allow_redirect=false
需要加User-Agent信息 模拟浏览器访问