关于卫健委官网爬取规范性文件
求问各位,我尝试在卫健委官网http://www.nhc.gov.cn/wjw/gfx...
爬取发布规范性文件的文件名,先通过requests,之后通过xpath解析, 然后再进入详情页爬取发布时间和发布单位等等信息,但是不知道为什么第一步就出现了错误,requests.get获取的文件就是乱码的,不管怎么用utf-8编码都是乱码的,不知道是不是加密了,本人小白,求问各位大佬!谢谢~
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
这个情况不是编码问题,应该是没获取到正确的网页
你打印一下response.status_code看看是不是412(先决条件失败),我也遇到过这种情况。
当你第一次访问时,会失败并且给你返回cookies,然后你再带着这个cookies去访问一次试试,如果状态码是200就是获取成功了。
输出:
可以发现,第一次发送请求时,会给你个cookies,并且返回412错误,第二次发送请求时,会重新设置cookies的一个键
oHAcoULcWCQb80S
,估计是需要三次才能够访问成功不过我没成功,你可以沿着这个思路想想
请问这个问题您解决了吗