使用 Python 进行网页抓取
我正在尝试使用 urllib2 和 BeautifulSoup 抓取网站 http://www.nseindia.com 。不幸的是,当我尝试通过 Python 访问该页面时,我不断收到 403 Forbidden 错误。我认为这是一个用户代理问题,但更改它并没有帮助。然后我认为这可能与 cookie 有关,但显然通过关闭 cookie 的链接加载页面效果很好。什么可能会阻止通过 urllib 的请求?
I am trying to scrape the website http://www.nseindia.com using urllib2 and BeautifulSoup. Unfortunately, I keep getting 403 Forbidden when I try to access the page through Python. I thought it was a user agent issue, but changing that did not help. Then I thought it may have something to do with cookies, but apparently loading the page through links with cookies turned off works fine. What may be blocking requests through urllib?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
http://www.nseindia.com/ 似乎需要一个
Accept
标头,无论出于何种原因。这应该有效:拒绝没有
Accept
标头的请求是不正确的; RFC 2616 明确指出http://www.nseindia.com/ seems to require an
Accept
header, for whatever reason. This should work:Refusing requests without
Accept
headers is incorrect; RFC 2616 clearly states