当前位置：文江博客话题详情

HttpClient encoding uri Java

apache httpclient 4 的 UNICODE URI 编码

发布于 2024-08-22 01:46:59 字数 1232 浏览 8 评论 0原文

我正在使用 apache http client 4 进行所有 Web 访问。这意味着我需要执行的每个查询都必须通过 URI 语法检查。我尝试访问的网站之一使用 UNICODE 作为 url GET params 编码，即：

http://maya.tase.co.il/bursa/index.asp?http://maya.tase.co。 il/bursa/index.asp?view=search&company_group=147&srh_txt=%u05E0%u05D9%u05D1&arg_comp=&srh_from=2009-06-01&srh_until=2010-02-16&srh_anaf=-1& srh_event=9999&is_urgent=0&srh_company_press=

（参数“srh_txt=%u05E0%u05D9%u05D1”以 UNICODE 编码 srh_txt=נйב）

问题是 URI 不支持 UNICODE 编码（仅支持 UTF） -8) 这里真正的大问题是，该网站希望它的参数以 UNICODE 进行编码，因此任何尝试使用 String.format("http://...srh_txt=%s&...",URLEncoder.encode( "נב" , "UTF8")) 生成的 url 是合法的，可用于构造 URI，但站点会用错误消息响应它，因为它不是它期望的编码。

顺便说一下，可以创建 URL 对象，甚至可以使用未转换的 url 连接到网站。有没有办法以非 UTF-8 编码创建 URI？有什么方法可以使用常规 URL（而不是 URI）使用 apache httpclient 4 吗？

谢谢，尼夫

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（1）

忘你却要生生世世 2024-08-29 01:46:59

（参数“srh_txt=%u05E0%u05D9%u05D1”以 UNICODE 编码 srh_txt=נйב）

事实并非如此。这不是 URL 编码，并且 URL 中的序列 %u 是无效。

%u05E0%u05D9%u05D1" 仅使用 JavaScript 的奇怪 escape 语法对 נйב 进行编码。escape 与 URL 相同- 对除 + 之外的所有 ASCII 字符进行编码，但它为 Unicode 字符生成的 %u#### 转义完全是它自己的发明

（应该是。一般情况下，切勿使用 escape。使用 encodeURIComponent 会生成正确的 URL 编码 UTF-8，ננב=%D7%A0% D7%99%D7%91。）

如果站点需要其查询字符串中的%u####序列，那么它就会被严重破坏。

有没有办法以非 UTF-8 编码创建 URI？

是的，URI 可以使用您喜欢的任何字符编码。常规上是UTF-8；这就是 IRI 所要求的，并且如果用户在地址栏中键入非 ASCII 字符，浏览器通常会提交什么，但 URI 本身只与字节有关。

因此，您可以将 נйב 转换为 %F0%E9%E1。 Web 应用程序无法判断这些字节代表的是代码页 1255（希伯来语，类似于 ISO-8859-8）中编码的字符。但它似乎确实可以在上面的链接上工作，而 UTF-8 版本却不能。哦亲爱的！

回复收藏 0 原文

~没有更多了~

关于作者

空城仅有旧梦在

暂无简介

文章

评论

785 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

浪子阿飞

文章 0 评论 0

JK.Yang

文章 0 评论 0

人间不值得

文章 0 评论 0

静待花开

文章 0 评论 0

只涨不跌

文章 0 评论 0

污浊的双黑

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文