使用 Python 进行网页抓取

发布于 2024-11-28 19:13:51 字数 263 浏览 4 评论 0原文

我正在尝试使用 urllib2 和 BeautifulSoup 抓取网站 http://www.nseindia.com 。不幸的是，当我尝试通过 Python 访问该页面时，我不断收到 403 Forbidden 错误。我认为这是一个用户代理问题，但更改它并没有帮助。然后我认为这可能与 cookie 有关，但显然通过关闭 cookie 的链接加载页面效果很好。什么可能会阻止通过 urllib 的请求？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

樱花细雨 2024-12-05 19:13:51

http://www.nseindia.com/ 似乎需要一个 Accept 标头，无论出于何种原因。这应该有效：

import urllib2
r = urllib2.Request('http://www.nseindia.com/')
r.add_header('Accept', '*/*')
r.add_header('User-Agent', 'My scraping program <[email protected]>')
opener = urllib2.build_opener()
content = opener.open(r).read()

拒绝没有 Accept 标头的请求是不正确的； RFC 2616 明确指出

如果不存在 Accept 头字段，则假定
客户端接受所有媒体类型。

http://www.nseindia.com/ seems to require an Accept header, for whatever reason. This should work:

import urllib2
r = urllib2.Request('http://www.nseindia.com/')
r.add_header('Accept', '*/*')
r.add_header('User-Agent', 'My scraping program <[email protected]>')
opener = urllib2.build_opener()
content = opener.open(r).read()

Refusing requests without Accept headers is incorrect; RFC 2616 clearly states