多字节标识符列表

发布于 2024-10-14 05:56:15 字数 325 浏览 2 评论 0原文

我正在研究多字节字符以及它们的使用方式,但是有多少不同的标识符/粘贴符用于不同的多字节。

例如:&nbps;&#nbsp;U+0026%20

有多少种不同有&&#u+%等标识符吗?

我试图查找输入,如果它们的单词长度超过 255 个字符,那么它可能是多字节(黑客尝试),然后我可以检查单词是否可以拆分具有多字节标识符,然后停止黑客尝试。

I was looking into multi-byte characters and how they are used but how many different identifiers/pasterns are used for different multi-bytes.

e.g: &nbps;,&#nbsp;,U+0026,%20

how many different identifiers such as &,&#,u+ ,% etc are there ?

Im trying to look for inputs if they have words which are more than 255 characters long then its probably a multi-byte (hack attempt) and then I can check if word can be split has the multi-byte identifier then stop the hack attempt.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

终止放荡 2024-10-21 05:56:15

% 格式 - 用于嵌入 URL 的 url 编码值,例如 %20 是一个空格 (ascii 20)
  - 命名字符实体,在本例中为不间断空格
U+0026 - 采用十六进制表示法的 unicode 字符,在本例中为 &
&#...; - 十进制编号字符实体 (base10) & = &
&#x...; - 十六进制编号字符实体(基数 16): & = &

% format - a url-encoded value for embedding into URLS, e.g. %20 is a space (ascii 20)
  - named character entity, a non-breaking space in this case
U+0026 - a unicode character in hex notation, an & in this case
&#...; - a numbered character entity in decimal (base10) & = &
&#x...; - a numbered character entity in hex (base 16): & = &

奢华的一滴泪 2024-10-21 05:56:15

您是否试图避免基于同形文字的欺骗?这里的标识符是指用户名吗?

如果是,并且您的用户使用拉丁字母,则仅允许 ASCII 字母和数字:

$identifier = preg_replace('#[^A-Za-z0-9]+#', '', $identifier);

Are you trying to avoid homoglyph-based spoofing ? Does identifier means username here ?

If yes, and if your users use a latin alphabet, just allow only ascii letters and numbers:

$identifier = preg_replace('#[^A-Za-z0-9]+#', '', $identifier);
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文