奇怪的自动 HTTP 重定向(302 代码)
在开发网络爬虫时,我遇到了涉及以下网页的奇怪现象: http://abudhabitourism.ae/en /
使用wget下载该页面时,返回状态码200,一切正常。
然而,当我的爬虫程序请求此页面(GET 请求)时,服务器似乎返回状态代码 302,并在位置标头中带有一个看起来奇怪的“移至”字段:
这实际上是一个网址还是一个脚本?关于如何在我的爬虫程序中处理这种情况的任何想法(即能够从位置标头中自动提取正确的移至网址)
谢谢, Chiraz BenAbdelkader 教授
While working on a web crawler, I came across this strange occurrence involving the following web page: http://abudhabitourism.ae/en/
When using wget to download this page, a status code 200 is returned and all is well.
However, when my crawler program requests this page (GET request), the server seems to return status code 302 with a strange-looking "moved-to" field in the location header:
Is this actually a url or a script? Any ideas on how I can handle this case in my crawler program (i.e. to be able to automatically extract the correct moved-to url from the location header)
Thanks,
Prof. Chiraz BenAbdelkader
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
我认为 wget 遵循 302 的重定向。当我使用curl 获取页面时,它返回带有 302 的标头和要跟进的 URL。
I think wget follows the redirect from the 302. When I use curl to get the page, it returns the headers with 302 and the URL to follow up on.