奇怪的自动 HTTP 重定向(302 代码)

发布于 2024-12-21 06:08:38 字数 742 浏览 3 评论 0原文

在开发网络爬虫时,我遇到了涉及以下网页的奇怪现象: http://abudhabitourism.ae/en /

使用wget下载该页面时,返回状态码200,一切正常。

然而,当我的爬虫程序请求此页面(GET 请求)时,服务器似乎返回状态代码 302,并在位置标头中带有一个看起来奇怪的“移至”字段:

http://sso.adta.ae/opensso/TacCDSSO?localServlet=http%3a%2f%2fabudhabitourism.ae%2f%2fcdsso.ashx&paramName=result&gotoURL=http%3a%2f% 2fabudhabitourism.ae%2fen%2fdefault.aspx

这实际上是一个网址还是一个脚本?关于如何在我的爬虫程序中处理这种情况的任何想法(即能够从位置标头中自动提取正确的移至网址)

谢谢, Chiraz BenAbdelkader 教授

While working on a web crawler, I came across this strange occurrence involving the following web page: http://abudhabitourism.ae/en/

When using wget to download this page, a status code 200 is returned and all is well.

However, when my crawler program requests this page (GET request), the server seems to return status code 302 with a strange-looking "moved-to" field in the location header:

http://sso.adta.ae/opensso/TacCDSSO?localServlet=http%3a%2f%2fabudhabitourism.ae%2f%2fcdsso.ashx¶mName=result&gotoURL=http%3a%2f%2fabudhabitourism.ae%2fen%2fdefault.aspx

Is this actually a url or a script? Any ideas on how I can handle this case in my crawler program (i.e. to be able to automatically extract the correct moved-to url from the location header)

Thanks,
Prof. Chiraz BenAbdelkader

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

顾忌 2024-12-28 06:08:38

我认为 wget 遵循 302 的重定向。当我使用curl 获取页面时,它返回带有 302 的标头和要跟进的 URL。

curl -iI http://abudhabitourism.ae/en/

I think wget follows the redirect from the 302. When I use curl to get the page, it returns the headers with 302 and the URL to follow up on.

curl -iI http://abudhabitourism.ae/en/
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文