两个Unicode编码代表1个西里尔字母

发布于 2025-02-04 11:11:59 字数 778 浏览 1 评论 0原文

我在Unicode和UTF-8表示中有这样的字符串：

\u00d0\u0095\u00d1\u0081\u00d0\u00bb\u00d0\u00b8\u00d0\u00bf\u00d0\u00be\u00d0\u00b2\u00d0\u00b5\u00d0\u00b7\u00d0\u00b5\u00d1\u0082 \u00d1\u0082\u00d0\u00be\u00d1\u0081\u00d0\u00b5\u00d0\u00b3\u00d0\u00be\u00d0\u00b4\u00d0\u00bd\u00d1\u008f\u00d1\u0083\u00d0\u00b6\u00d0\u00b5\u00d1\u0081\u00d0\u00ba\u00d0\u00b8\u00d0\u00bd\u00d1\u0083

所需

Ð•ÑÐ»Ð¸ Ð¿Ð¾Ð²ÐµÐ·ÐµÑ‚ Ñ‚Ð¾ ÑÐµÐ³Ð¾Ð´Ð½Ñ ÑƒÐ¶Ðµ ÑÐºÐ¸Ð½Ñƒ.

的OUPUT是“ e list”。

我尝试了所有可能的编码，但仍然无法以完整的西里尔形式获得。

我得到的最好的是

'�?�?ли повезе�? �?о �?егодн�? �?же �?кин�?'

使用Windows-1252。

而且我还注意到，所需字符串中的一个西里尔字母表示两个Unicode编码。

例如：\ u00d0 \ u0095 ='r''。也许有人知道什么编码以及如何使用它来获得正常结果？

原文

I have such string in unicode and utf-8 representation:

\u00d0\u0095\u00d1\u0081\u00d0\u00bb\u00d0\u00b8\u00d0\u00bf\u00d0\u00be\u00d0\u00b2\u00d0\u00b5\u00d0\u00b7\u00d0\u00b5\u00d1\u0082 \u00d1\u0082\u00d0\u00be\u00d1\u0081\u00d0\u00b5\u00d0\u00b3\u00d0\u00be\u00d0\u00b4\u00d0\u00bd\u00d1\u008f\u00d1\u0083\u00d0\u00b6\u00d0\u00b5\u00d1\u0081\u00d0\u00ba\u00d0\u00b8\u00d0\u00bd\u00d1\u0083

and

Ð•ÑÐ»Ð¸ Ð¿Ð¾Ð²ÐµÐ·ÐµÑ‚ Ñ‚Ð¾ ÑÐµÐ³Ð¾Ð´Ð½Ñ ÑƒÐ¶Ðµ ÑÐºÐ¸Ð½Ñƒ.

The desired ouput is "Если повезет то сегодня уже скину".

I have tried all possible encodings but still wasn't able to get it in complete cyrillic form.

The best I got was

'�?�?ли повезе�? �?о �?егодн�? �?же �?кин�?'

using windows-1252.

And also I've noticed that one cyrillic letter in desired string means two unicode encodings.

For example: \u00d0\u0095 = 'Е'.
Maybe someone knows what encoding and how to use it to get a normal result?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

独﹏钓一江月 2025-02-11 11:12:00

您有一个编码错误的字符串，其中UTF-8字节被翻译为ISO-8859-1（也称为latin1）。理想情况下，使用正确的编码重新下载，但是您也可以用错误使用的编码来编码以重新恢复原始字节流，然后用右编码（UTF-8）解码：

Python：

>>> s = '\u00d0\u0095\u00d1\u0081\u00d0\u00bb\u00d0\u00b8\u00d0\u00bf\u00d0\u00be\u00d0\u00b2\u00d0\u00b5\u00d0\u00b7\u00d0\u00b5\u00d1\u0082 \u00d1\u0082\u00d0\u00be\u00d1\u0081\u00d0\u00b5\u00d0\u00b3\u00d0\u00be\u00d0\u00b4\u00d0\u00bd\u00d1\u008f\u00d1\u0083\u00d0\u00b6\u00d0\u00b5\u00d1\u0081\u00d0\u00ba\u00d0\u00b8\u00d0\u00bd\u00d1\u0083'
>>> s
'Ð\x95Ñ\x81Ð»Ð¸Ð¿Ð¾Ð²ÐµÐ·ÐµÑ\x82 Ñ\x82Ð¾Ñ\x81ÐµÐ³Ð¾Ð´Ð½Ñ\x8fÑ\x83Ð¶ÐµÑ\x81ÐºÐ¸Ð½Ñ\x83'
>>> print(s)
ÐÑÐ»Ð¸Ð¿Ð¾Ð²ÐµÐ·ÐµÑ ÑÐ¾ÑÐµÐ³Ð¾Ð´Ð½ÑÑÐ¶ÐµÑÐºÐ¸Ð½Ñ
>>> s.encode('latin1')
b'\xd0\x95\xd1\x81\xd0\xbb\xd0\xb8\xd0\xbf\xd0\xbe\xd0\xb2\xd0\xb5\xd0\xb7\xd0\xb5\xd1\x82 \xd1\x82\xd0\xbe\xd1\x81\xd0\xb5\xd0\xb3\xd0\xbe\xd0\xb4\xd0\xbd\xd1\x8f\xd1\x83\xd0\xb6\xd0\xb5\xd1\x81\xd0\xba\xd0\xb8\xd0\xbd\xd1\x83'
>>> s.encode('latin1').decode('utf8')
'Еслиповезет тосегодняужескину'

您也可以具有字面的字符串Unicode逃生代码，这有点棘手：

>>> s=r'\u00d0\u0095\u00d1\u0081\u00d0\u00bb\u00d0\u00b8\u00d0\u00bf\u00d0\u00be\u00d0\u00b2\u00d0\u00b5\u00d0\u00b7\u00d0\u00b5\u00d1\u0082 \u00d1\u0082\u00d0\u00be\u00d1\u0081\u00d0\u00b5\u00d0\u00b3\u00d0\u00be\u00d0\u00b4\u00d0\u00bd\u00d1\u008f\u00d1\u0083\u00d0\u00b6\u00d0\u00b5\u00d1\u0081\u00d0\u00ba\u00d0\u00b8\u00d0\u00bd\u00d1\u0083'
>>> print(s)
\u00d0\u0095\u00d1\u0081\u00d0\u00bb\u00d0\u00b8\u00d0\u00bf\u00d0\u00be\u00d0\u00b2\u00d0\u00b5\u00d0\u00b7\u00d0\u00b5\u00d1\u0082 \u00d1\u0082\u00d0\u00be\u00d1\u0081\u00d0\u00b5\u00d0\u00b3\u00d0\u00be\u00d0\u00b4\u00d0\u00bd\u00d1\u008f\u00d1\u0083\u00d0\u00b6\u00d0\u00b5\u00d1\u0081\u00d0\u00ba\u00d0\u00b8\u00d0\u00bd\u00d1\u0083

在这种情况下，必须将字符串转换回字节，将其解码为Unicode Escapes，然后编码回到字节并正确解码为UTF-8。 latin1具有这样的功能，即该编解码器中的Unicode MAP的第一个256代码点为0-255，因此它将1：1代码指数转换为字节值。

>>> s.encode('latin1').decode('unicode-escape').encode('latin1').decode('utf8')
'Еслиповезет тосегодняужескину'

You have a mis-decoded string where the UTF-8 bytes were translated as ISO-8859-1 (also known as latin1). Ideally, re-download with the correct encoding, but you can also encode with the wrongly-used encoding to regain the original byte stream, then decode with the right encoding (UTF-8):

Python:

>>> s = '\u00d0\u0095\u00d1\u0081\u00d0\u00bb\u00d0\u00b8\u00d0\u00bf\u00d0\u00be\u00d0\u00b2\u00d0\u00b5\u00d0\u00b7\u00d0\u00b5\u00d1\u0082 \u00d1\u0082\u00d0\u00be\u00d1\u0081\u00d0\u00b5\u00d0\u00b3\u00d0\u00be\u00d0\u00b4\u00d0\u00bd\u00d1\u008f\u00d1\u0083\u00d0\u00b6\u00d0\u00b5\u00d1\u0081\u00d0\u00ba\u00d0\u00b8\u00d0\u00bd\u00d1\u0083'
>>> s
'Ð\x95Ñ\x81Ð»Ð¸Ð¿Ð¾Ð²ÐµÐ·ÐµÑ\x82 Ñ\x82Ð¾Ñ\x81ÐµÐ³Ð¾Ð´Ð½Ñ\x8fÑ\x83Ð¶ÐµÑ\x81ÐºÐ¸Ð½Ñ\x83'
>>> print(s)
ÐÑÐ»Ð¸Ð¿Ð¾Ð²ÐµÐ·ÐµÑ ÑÐ¾ÑÐµÐ³Ð¾Ð´Ð½ÑÑÐ¶ÐµÑÐºÐ¸Ð½Ñ
>>> s.encode('latin1')
b'\xd0\x95\xd1\x81\xd0\xbb\xd0\xb8\xd0\xbf\xd0\xbe\xd0\xb2\xd0\xb5\xd0\xb7\xd0\xb5\xd1\x82 \xd1\x82\xd0\xbe\xd1\x81\xd0\xb5\xd0\xb3\xd0\xbe\xd0\xb4\xd0\xbd\xd1\x8f\xd1\x83\xd0\xb6\xd0\xb5\xd1\x81\xd0\xba\xd0\xb8\xd0\xbd\xd1\x83'
>>> s.encode('latin1').decode('utf8')
'Еслиповезет тосегодняужескину'

You may also have a literal string of Unicode escape codes, which is a bit trickier:

>>> s=r'\u00d0\u0095\u00d1\u0081\u00d0\u00bb\u00d0\u00b8\u00d0\u00bf\u00d0\u00be\u00d0\u00b2\u00d0\u00b5\u00d0\u00b7\u00d0\u00b5\u00d1\u0082 \u00d1\u0082\u00d0\u00be\u00d1\u0081\u00d0\u00b5\u00d0\u00b3\u00d0\u00be\u00d0\u00b4\u00d0\u00bd\u00d1\u008f\u00d1\u0083\u00d0\u00b6\u00d0\u00b5\u00d1\u0081\u00d0\u00ba\u00d0\u00b8\u00d0\u00bd\u00d1\u0083'
>>> print(s)
\u00d0\u0095\u00d1\u0081\u00d0\u00bb\u00d0\u00b8\u00d0\u00bf\u00d0\u00be\u00d0\u00b2\u00d0\u00b5\u00d0\u00b7\u00d0\u00b5\u00d1\u0082 \u00d1\u0082\u00d0\u00be\u00d1\u0081\u00d0\u00b5\u00d0\u00b3\u00d0\u00be\u00d0\u00b4\u00d0\u00bd\u00d1\u008f\u00d1\u0083\u00d0\u00b6\u00d0\u00b5\u00d1\u0081\u00d0\u00ba\u00d0\u00b8\u00d0\u00bd\u00d1\u0083

In this case, the string has to be converted back to bytes, decoded as Unicode escapes, then encoded back to bytes and correctly decoded as UTF-8. latin1 has the feature that the first 256 code points of Unicode map to bytes 0-255 in that codec, so it converts 1:1 code point to byte value.

>>> s.encode('latin1').decode('unicode-escape').encode('latin1').decode('utf8')
'Еслиповезет тосегодняужескину'

回复收藏 0 原文

无力看清 2025-02-11 11:12:00

D0 95 D1 81 D0 BB D0 B8是的正确的UTF-8八位位流式流，“ eCome>”。

因此，您需要通过删除最重要的部分（无论如何在您的示例中始终为0），将每个字符转换为字节（8位单词，八位字）。然后将它们解码为UTF-8。

或者更好，请返回到您获得的源，并确保八位位集不被视为单字节编码。

回复收藏 0 原文

~没有更多了~

关于作者

↙温凉少女

暂无简介

文章

26 人气

关注发私信

友情链接

文江博客

两个Unicode编码代表1个西里尔字母

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

櫻之舞

弥枳

m2429

寻找一个思念的角度

野却迷人

我怀念的。

友情链接

两个Unicode编码代表1个西里尔字母

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

櫻之舞

弥枳

m2429

寻找一个思念的角度

野却迷人

我怀念的。

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。