新手请教, python status code 302 不能够抓取登录後的网页内容

发布于 2022-09-12 01:09:52 字数 1073 浏览 8 评论 0

大家好, 我写了一段python代码, 想用来爬取登录後的网页内容.
我尝试过爬一些网站是可以成功抓取的, 但是我自己公司的网站, 却不能够抓取, 然后我看了chrome里面的后台提交信息, 发现那个status_code是302, 大概是重定向的意思, 请问我抓取不了是跟这个有关系吗? 谢谢!

不好意思, 因为这个网站是我公司的网, 所以我就把它屏蔽掉了.
第一张图片是我第一个抓取到的login内容
第二张图片是我第二个抓取到的内容, 不肯定作用是什么

这个是抓取到的login路径

这个是抓取到的第2个路径 (不肯定是不是重定向的路径)

import requests
requests.packages.urllib3.disable_warnings();

session = requests.Session();
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36',
}
data = {
    'ctl00$phContentMain$txtLoginID': 'myLoginName',
    'ctl00$phContentMain$txtPassword': 'myPassword'
}
login_url ='https://www.myWebSite.com/HPD/Login.aspx';

session.post(login_url,data=data,headers=headers,verify=False);

url2 = 'https://www.myWebSite.com/HPD/default.aspx';
response = session.get(url2);
print(response.text);

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

同展鸳鸯锦 2022-09-19 01:09:53

原来是因为这个网页是aspx的缘故, form data会比平常的多
而且网页中有一个hidden的数据, 需要从网页中获取然后在放在data里面提交才可以登录

凉风有信 2022-09-19 01:09:53
session.post(login_url,data=data,headers=headers,verify=False);

改为:`
session.post(login_url,data=data,headers=headers,verify=False,allow_redirects=False);

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文