多字节标识符列表
我正在研究多字节字符以及它们的使用方式,但是有多少不同的标识符/粘贴符用于不同的多字节。
例如:&nbps;
、&#nbsp;
、U+0026
、%20
有多少种不同有&
、&#
、u+
、%
等标识符吗?
我试图查找输入,如果它们的单词长度超过 255 个字符,那么它可能是多字节(黑客尝试),然后我可以检查单词是否可以拆分具有多字节标识符,然后停止黑客尝试。
I was looking into multi-byte characters and how they are used but how many different identifiers/pasterns are used for different multi-bytes.
e.g: &nbps;
,nbsp;
,U+0026
,%20
how many different identifiers such as &
,,
u+
,%
etc are there ?
Im trying to look for inputs if they have words which are more than 255 characters long then its probably a multi-byte (hack attempt) and then I can check if word can be split has the multi-byte identifier then stop the hack attempt.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
%
格式 - 用于嵌入 URL 的 url 编码值,例如 %20 是一个空格 (ascii 20)U+0026
- 采用十六进制表示法的 unicode 字符,在本例中为&
&#...;
- 十进制编号字符实体 (base10)&
= &&#x...;
- 十六进制编号字符实体(基数 16):&
= &%
format - a url-encoded value for embedding into URLS, e.g. %20 is a space (ascii 20)U+0026
- a unicode character in hex notation, an&
in this case&#...;
- a numbered character entity in decimal (base10)&
= &&#x...;
- a numbered character entity in hex (base 16):&
= &您是否试图避免基于同形文字的欺骗?这里的标识符是指用户名吗?
如果是,并且您的用户使用拉丁字母,则仅允许 ASCII 字母和数字:
Are you trying to avoid homoglyph-based spoofing ? Does identifier means username here ?
If yes, and if your users use a latin alphabet, just allow only ascii letters and numbers: