浏览器的解码顺序（html解码、url解码以及js解码）

发布于 2022-08-30 01:03:44 字数 463 浏览 30 评论 0

<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
</head>
<body>
<a href="javascript:alert('<?php echo $_GET['input'];?>');">test</a>
</body>
</html>

代码如上，当参数input的值为:%26lt%5cu4e00%26gt的时候，点击test文本，弹窗内容为：<一>
想知道，从输入参数到弹窗的整个过程中浏览器是如何对%26lt%5cu4e00%26gt进行顺序解码的？

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

弱骨蛰伏 2022-09-06 01:03:44

服务端收到请求，进入代码逻辑处理时

input的值，被URLDecode，变为<\u4e00>
浏览器从服务端获取的页面数据就已经变成了<\u4e00>
此时通过查看页面源码(注意不是页面右键点检查元素)可以看到

<a href="javascript:alert('<\u4e00>');">test</a>

浏览器在渲染的时候

作为URL的href字符串 javascript:alert('<\u4e00>'); 被HTMLEntity解码，变为

<a href="javascript:alert('<\u4e00>');">test</a>

这一步可以通过在页面上右键点击test链接，选择检查元素，可以看出实际渲染出的dom元素

点击test链接时

执行的其实是一句javascript代码，其中有一个字符串，'<\u4e00>'，里面有一个转义字符\u4e00，对其进行逆转义，由前导符\u可知这是一个unicode编码的转义，将这6个字节的字符串'\u4e00'转化为一个实际上占3个字节空间的unicode字符'一'，此时整个字符串占用的内存空间为