当前位置：文江博客话题详情

TCP 接收扩展 ASCII 或 utf-8 字符

发布于 2024-10-16 13:20:20 字数 75 浏览 4 评论 0原文

对于倒问号 ¿ 我收到两个字节 [-62][-65] 但如何获得可读的 utf-8 或 ASCII 字符编码？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

七禾 2024-10-23 13:20:20

这是该字符的 UTF8 代码。倒问号是Unicode代码点191< /code>，在 UTF8 中，是 0xc2:0xbf。

您将它们视为带符号的字节。例如，有符号的 -62 是 256-62 或无符号的 194 - 即十六进制 0xc2。

同样，有符号的 -65 是无符号的 256-65 或 191 - 即十六进制 0xbf。

如果要将 UTF8 序列转换为代码点，可以使用下表。

    Range              Encoding  Binary value
    -----------------  --------  --------------------------
    U+000000-U+00007f  0xxxxxxx  0xxxxxxx

    U+000080-U+0007ff  110yyyxx  00000yyy xxxxxxxx
                       10xxxxxx

    U+000800-U+00ffff  1110yyyy  yyyyyyyy xxxxxxxx
                       10yyyyxx
                       10xxxxxx

    U+010000-U+10ffff  11110zzz  000zzzzz yyyyyyyy xxxxxxxx
                       10zzyyyy
                       10yyyyxx
                       10xxxxxx

例如，您的 0xc2:0xbf 是二进制 11000010 10111111 ，它与第二种情况匹配：

      11000010 10111111
         |||||   ||||||
         |||\\  //////
         ||| ||||||||
    00000000 10111111  ->  0x00bf  ->  191

That is the UTF8 code for that character. The inverted question mark is Unicode code point 191 which, in UTF8, is 0xc2:0xbf.

You're seeing them as signed bytes. For example -62 signed is 256-62 or 194 unsigned - that's hex 0xc2.

Similarly, -65 signed is 256-65 or 191 unsigned - that's hex 0xbf.

If you want to convert your UTF8 sequence into a code point, you can use the table below.

    Range              Encoding  Binary value
    -----------------  --------  --------------------------
    U+000000-U+00007f  0xxxxxxx  0xxxxxxx

    U+000080-U+0007ff  110yyyxx  00000yyy xxxxxxxx
                       10xxxxxx

    U+000800-U+00ffff  1110yyyy  yyyyyyyy xxxxxxxx
                       10yyyyxx
                       10xxxxxx

    U+010000-U+10ffff  11110zzz  000zzzzz yyyyyyyy xxxxxxxx
                       10zzyyyy
                       10yyyyxx
                       10xxxxxx

For example, your 0xc2:0xbf is binary 11000010 10111111 which matches the second case:

      11000010 10111111
         |||||   ||||||
         |||\\  //////
         ||| ||||||||
    00000000 10111111  ->  0x00bf  ->  191

回复收藏 0 原文

看海 2024-10-23 13:20:20

这 2 个字节可能是 UTF-8

对于 ASCII，您需要特定的代码页。

到底什么是“可读”字符编码？

回复收藏 0 原文

濫情▎り 2024-10-23 13:20:20

查看十六进制的字节值：

-62 是 0xc2
-65 是 0xbf

如果您查找 Unicode 信息，您可以看到，这实际上是构成倒问号字形的 UTF-8 编码的两个字节。

回复收藏 0 原文

~没有更多了~

关于作者

紙鸢

暂无简介

0 文章

0 评论

23 人气

关注发私信

Gabu-gabumon

文章 0 评论 0

关注

qq_CgiN62

文章 0 评论 0

关注

荔枝明

文章 0 评论 0

关注

赏烟花じ飞满天

文章 0 评论 0

关注

独守阴晴ぅ圆缺

文章 0 评论 0

关注

¤→小豸慧

文章 0 评论 0

友情链接

文江博客

TCP 接收扩展 ASCII 或 utf-8 字符

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

Gabu-gabumon

qq_CgiN62

荔枝明

赏烟花じ飞满天

独守阴晴ぅ圆缺

¤→小豸慧

友情链接

TCP 接收扩展 ASCII 或 utf-8 字符

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

Gabu-gabumon

qq_CgiN62

荔枝明

赏烟花じ飞满天

独守阴晴ぅ圆缺

¤→小豸慧

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。