分割给定字节偏移量的 utf-8 编码字符串 (python 2.7)
有一个像这样的 utf-8 编码字符串:
bar = "hello 。◕‿‿◕。"
和一个字节偏移量,告诉我必须在哪个字节分割字符串:
bytes_offset = 9
如何将条形字符串分割成两部分,结果是:
>>first_part
'hello 。' <---- #9 bytes 'hello \xef\xbd\xa1'
>>second_part
'◕‿‿◕。'
简而言之 :
给定字节偏移量,如何将其转换为 utf-8 编码字符串的实际字符索引位置?
Having an utf-8 encoded string like this:
bar = "hello 。◕‿‿◕。"
and a bytes offset that tells me at which byte I have to split the string:
bytes_offset = 9
how can I split the bar string in two parts resulting in:
>>first_part
'hello 。' <---- #9 bytes 'hello \xef\xbd\xa1'
>>second_part
'◕‿‿◕。'
In a nutshell:
given a bytes offset, how can I transform it in the actual char index position of an utf-8 encoded string?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
UTF-8 Python 2.x 字符串基本上是字节字符串。
产量:
这里是 OSX 上的 Python 2.6,但我希望 2.7 也有同样的结果。如果我分割为 10 或 11 而不是 9,我会得到 ?字符输出意味着它破坏了多字节字符序列中间的字节序列;对 12 进行分裂将第一个“眼球”移动到字符串的第一部分。
我在终端中将 PYTHONIOENCODING 设置为 utf8。
UTF-8 Python 2.x strings are basically byte strings.
Yields:
Python 2.6 on OSX here but I expect the same from 2.7. If I split on 10 or 11 instead of 9, I get ? characters output implying that it broke the sequence of bytes in the middle of a multibyte character sequence; splitting on 12 moves the first "eyeball" to the first part of the string.
I have PYTHONIOENCODING set to utf8 in the terminal.
字符偏移量是字节偏移量之前的字符数:
Character offset is a number of characters before byte offset: