使用 Python 进行网页抓取

发布于 2024-11-28 19:13:51 字数 263 浏览 0 评论 0原文

我正在尝试使用 urllib2 和 BeautifulSoup 抓取网站 http://www.nseindia.com 。不幸的是,当我尝试通过 Python 访问该页面时,我不断收到 403 Forbidden 错误。我认为这是一个用户代理问题,但更改它并没有帮助。然后我认为这可能与 cookie 有关,但显然通过关闭 cookie 的链接加载页面效果很好。什么可能会阻止通过 urllib 的请求?

I am trying to scrape the website http://www.nseindia.com using urllib2 and BeautifulSoup. Unfortunately, I keep getting 403 Forbidden when I try to access the page through Python. I thought it was a user agent issue, but changing that did not help. Then I thought it may have something to do with cookies, but apparently loading the page through links with cookies turned off works fine. What may be blocking requests through urllib?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

樱花细雨 2024-12-05 19:13:51

http://www.nseindia.com/ 似乎需要一个 Accept 标头,无论出于何种原因。这应该有效:

import urllib2
r = urllib2.Request('http://www.nseindia.com/')
r.add_header('Accept', '*/*')
r.add_header('User-Agent', 'My scraping program <[email protected]>')
opener = urllib2.build_opener()
content = opener.open(r).read()

拒绝没有 Accept 标头的请求是不正确的; RFC 2616 明确指出

如果不存在 Accept 头字段,则假定
客户端接受所有媒体类型。

http://www.nseindia.com/ seems to require an Accept header, for whatever reason. This should work:

import urllib2
r = urllib2.Request('http://www.nseindia.com/')
r.add_header('Accept', '*/*')
r.add_header('User-Agent', 'My scraping program <[email protected]>')
opener = urllib2.build_opener()
content = opener.open(r).read()

Refusing requests without Accept headers is incorrect; RFC 2616 clearly states

If no Accept header field is present, then it is assumed that the
client accepts all media types.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文