Nodejs如何处理IE诡异的非英文URL编码

发布于 2022-09-01 12:48:18 字数 1214 浏览 17 评论 0

众所周知URL里是不能出现除了英文数字和某些特殊符号外的其他字符的，也不能出现汉字。URL会出现汉字也就4种情况：

网址路径(path)中包含汉字：如 https://zh.wikipedia.org/wiki/浏览器
Get方法生成包含汉字的URL：一般是由表单生成的，比如 https://zh.wikipedia.org/w/index.php?search=%E6%B5%8F%E8%A7%88%E5%99%A8
查询字符串(Query String)包含汉字：比如 https://zh.wikipedia.org/w/index.php?search=浏览器 与第二种不同的是直接在浏览器地址栏输入汉字
Ajax调用的URL包含汉字: 比如 <script>url = url + "?q=" +document.getElementById("input").value;</script>

在第一种情况下，各浏览器始终使用UTF-8编码，也就是最后被解析成了 https://zh.wikipedia.org/wiki/%E6%B5%8F%E8%A7%88%E5%99%A8
第二种情况则是根据当前页面编码进行转义，2中的例子用的就是UTF-8
第三种情况就相当诡异了，Chrome和FF都使用UTF-8进行转义，而IE则不是。查了一下，IE用的是操作系统的默认编码，据我所知这个默认编码在不同Windows版本和不同系统语言下都不一样。
第四种情况和第三类似，IE使用系统默认而Chrome和FF使用UTF-8。

于是乎服务器拿到第三和第四种的请求后，根本不知道用的是什么编码。第四种倒容易解决，提前用JavaScript指定编码转义一次就好。但是第三种就...

于是说服务器如何确定在第三种情况发来的发来的查询字符串真正内容？这里用的是Nodejs，可以的话也想听听PHP的解决方案。

试了一个貌似在IE下，用第三种情况搜索Wordpress也会返回404（用错误解码方式的关键词查询数据库没有找到结果）。

=============
突然想到一个点子，能不能从请求header的UA判断是否为IE，如果是再通过Accept-Language来猜测编码...（我开始乱来了....

分享到QQ

分享到微博