HTTPClient - HTTP GET 因重定向 URL 中的 # 锚点而损坏

发布于 2024-12-11 06:51:46 字数 959 浏览 3 评论 0原文

这有点奇怪。我正在使用 HTTPClient 4.1.2，似乎只要它发现 URL 中包含“#”之类的内容，它就会对 URL 中的 # 进行完整获取。

例如，尝试获取 URL http://stks.co/eWt 将重定向到 URL http://news.ichinastock.com/2011/10/jack-ma-阿里巴巴已准备好 200 亿美元收购 yahoo/#.Tpw-xG61XjU.twitter。现在这个 URL 已上线，但问题是 HTTPClient 发送了一个 URI 设置为 URI 的 get 请求：/2011/10/jack-ma-alibaba-has-prepared-20-billion-to-acquire-yahoo /#.Tpw-xG61XjU.twitter 这会导致服务器发回 404 页面未找到。

查看IE、Firefox和cURL发送的GET，它们都去掉了URI末尾的#...，因此例如cURL GET请求URI设置为URI：/2011/10/jack -ma-alibaba-has-prepared-20-billion-to-acquire-yahoo/ - 所有 #... 已被删除。这与 http://stks.co/eWt 的入口 URL 完全相同。

作为测试，将此原始 URL 发送到 HTTPClient（即 HttpGet httpget = new HttpGet("http://news.ichinastock.com/2011/10/jack-ma-alibaba-has-prepared-20-billion- to-acquire-yahoo/#.Tpw-xG61XjU.twitter");) 给出相同的 404 未找到结果。

所以问题是 HTTPClient 中是否有任何设置可以设置，以便可以从 URL 中自动删除尾随 #... 之类的内容。或者我该如何手动从 URL 中删除它（请记住，我还需要捕获所有重定向 URL）？

原文