维基百科上的汉字编码是什么?

发布于 2024-10-31 06:50:37 字数 368 浏览 5 评论 0原文

我在维基百科上查看中文字符的编码,但无法弄清楚它们使用的是什么。例如“的”被编码为“%E7%9A%84”(请参见此处)。这是三个字节,但是本页描述的编码都没有使用三个字节来表示中文字符。例如,UTF-8 使用 2 个字节。

我基本上试图将这三个字节与实际字符匹配。关于它可能是什么编码有什么建议吗?

I was looking at the encoding of Chinese characters on Wikipedia and I'm having trouble figuring out what they are using. For instance "的" is encoded as "%E7%9A%84" (see here). That's three bytes, however none of the encodings described on this page uses three bytes to represent Chinese characters. UTF-8 for instance uses 2 bytes.

I'm basically trying to match these three bytes to an actual character. Any suggestion on what encoding it could be?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

〃安静 2024-11-07 06:50:37

>>> c='\xe7\x9a\x84'.decode('utf8')
>>> c
u'\u7684'
>>> print c
的


though Unicode encodes it in 16 bits, utf8 breaks it down to 3 bytes.


>>> c='\xe7\x9a\x84'.decode('utf8')
>>> c
u'\u7684'
>>> print c
的


though Unicode encodes it in 16 bits, utf8 breaks it down to 3 bytes.

少钕鈤記 2024-11-07 06:50:37

维基百科页面的标题包含以下内容:

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

所以该页面是 UTF-8。

The header of a wikipedia page includes this:

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

So the page is UTF-8.

眼趣 2024-11-07 06:50:37

您给出的示例是 IRI

IRI 使用 UTF8 编码。 UTF8 实现了 unicode,在 unicode 中,每个字符都有一个代码点,对于所有汉字来说,代码点位于 0x4E00 到 0x9FFF(2 个字节)之间。

但 UTF8 不会仅通过存储字符的代码点来对字符进行编码(UTF32 就是这样做的)。相反,它使用更复杂的标准,这使得所有中文表意文字 2 或3 字节长。

The example you give is an IRI.

IRIs use the UTF8 encoding. UTF8 implements unicode, and in unicode, each character has a codepoint, that is between 0x4E00 and 0x9FFF (2 bytes) for all chinese characters.

But UTF8 doesn't encode characters by just storing their codepoint (UTF32 does that). Instead, it uses a more complex standard, that makes all chinese ideograms 2 or 3 bytes long.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文