当前位置：文江博客文章教程详情

Python 中 UTF-8 编码的坑：字符串多种表示方法

发布于 2023-01-28 15:52:35 字数 1695 浏览 95 评论 0

UTF-8 中定义了一些组合字符，这些字符会与它前面的非组合字符组合显示成一个字符，一般用它来添加加重或者变音标记。

同时呢，某些常用的加重字符也会有自己的单一编码值，这些字符叫做预组合字符（precomposed characters）。

这就带来一个很恐怖的后果，某些 UTF-8 的字符可能有两种表示方法！例如单词 naïve 可以写作这6个字符 nai\u0308ve ，也可能写作5个字符 na\u00EFve。这样一来，在程序中处理这类字符时就会出现一些很诡异的结果：

例如下面这段 python 代码

import re
s1 = "nai\u0308ve"
s2 = "na\u00EFve"

if s1 == s2:
    print(s1,"is equal to",s2)
else:
    print(s1,"is not equal to",s2)

regexp = '^.....$'
if re.match(regexp,s1):
    print(regexp,"is matching",s1)
else:
    print(regexp,"is not matching",s1)

if re.match(regexp,s2):
    print(regexp,"is matching",s2)
else:
    print(regexp,"is not matching",s2)

print("length of",s1,"is",len(s1))
print("length of",s2,"is",len(s2))

结果为：

naïve is not equal to naïve
^.....$ is not matching naïve
^.....$ is matching naïve
length of naïve is 6
length of naïve is 5

解决方法是用 unicodedata 库中的 normalize 函数来对字符串进行归一化（normalization）

import re
from unicodedata import normalize
s1 = normalize('NFC',"nai\u0308ve")
s2 = normalize('NFC',"na\u00EFve")

if s1 == s2:
    print(s1,"is equal to",s2)
else:
    print(s1,"is not equal to",s2)

regexp = '^.....$'
if re.match(regexp,s1):
    print(regexp,"is matching",s1)
else:
    print(regexp,"is not matching",s1)

if re.match(regexp,s2):
    print(regexp,"is matching",s2)
else:
    print(regexp,"is not matching",s2)

print("length of",s1,"is",len(s1))
print("length of",s2,"is",len(s2))

其结果为

naïve is equal to naïve
^.....$ is matching naïve
^.....$ is matching naïve
length of naïve is 5
length of naïve is 5

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

让 Windows 2003 支持搜索文件内容

RXJS 基于可观测数据流在异步编程应用中的库

提高 Sass 水平的小技巧

autosize.js 让输入框自适应内容高度

又拍相册描述内容生成 EXCEL 表格的实例

怎样批量获取美拍视频上某个作者主页的全部视频

npm 报错 Unexpected token < in JSON at position 1 while parsing near

Remodal 轻量级 JavaScript 模态窗口插件

上一篇：使用 shell 编写打字游戏

下一篇：像使用 Docker 一样丝滑地使用 Containerd

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

关于作者

半﹌身腐败

暂无简介

文章

26 人气

关注发私信

关注

櫻之舞

文章 0 评论 0

关注

弥枳

文章 0 评论 0

关注

m2429

文章 0 评论 0

关注

寻找一个思念的角度

文章 0 评论 0

关注

野却迷人

文章 0 评论 0

关注

我怀念的。

文章 0 评论 0

友情链接

文江博客

Python 中 UTF-8 编码的坑：字符串多种表示方法

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

你可能也喜欢

让 Windows 2003 支持搜索文件内容

RXJS 基于可观测数据流在异步编程应用中的库

提高 Sass 水平的小技巧

autosize.js 让输入框自适应内容高度

又拍相册描述内容生成 EXCEL 表格的实例

怎样批量获取美拍视频上某个作者主页的全部视频

npm 报错 Unexpected token < in JSON at position 1 while parsing near

Remodal 轻量级 JavaScript 模态窗口插件

发布评论

关于作者

热门标签

推荐作者

櫻之舞

弥枳

m2429

寻找一个思念的角度

野却迷人

我怀念的。

友情链接

Python 中 UTF-8 编码的坑：字符串多种表示方法

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

你可能也喜欢

发布评论

关于作者

热门标签

推荐作者

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。