返回介绍

第36章 Unicode 和字节字符串

发布于 2024-01-29 22:24:14 字数 2048 浏览 0 评论 0 收藏 0

在本书的核心类型部分关于字符串的一章中(第7章),我有意地限制了大多数Python程序员需要了解的字符串话题的子集的范围。因为大多数程序员只是处理像ASCII这样的文本的简单形式,他们快乐地使用着Python的基本的str字符串类型及其相关的操作,并且不需要掌握更加高级的字符串概念。实际上,这样的程序员很大程度上可以忽略Python 3.0中的字符串的变化,并且继续使用他们过去所使用的字符串。

另一方面,一些程序员处理更加专业的数据类型:非ASCII的字符串集、图像文件内容,等等。对于这些程序员(以及其他可能某一天加入这一队伍的程序员),在本章中,我们将介绍Python字符串的其他内容,并且探讨Python字符串模型中一些较为高级的话题。

特别是,我们将介绍Python支持的Unicode文本的基础知识——在国际化应用程序中使用的宽字符字符串,以及二进制数据——表示绝对的字节值的字符串。我们将看到,高级的字符串表示法在Python当前版本中已经产生了分歧:

·Python 3.0为二进制数据提供了一种替代字符串类型,并且在其常规的字符串类型中支持Unicode文本(ASCII看作Unicode的一种简单类型)。

·Python 2.6为非ASCII Unicode文本提供了一种替代字符串类型,并且在其常规的字符串类型中支持简单文本和二进制数据。

此外,由于Python的字符串模式对于如何处理非ASCII文件有着直接的影响,我们还将在这里介绍相关话题的基础知识。最后,我们还将简单地看看一些高级字符串和二进制工具,例如模式匹配、对象pickle化、二进制数据包装和XML解析,以及Python 3.0的字符串变化对它们产生影响的方式。

正式来说,本章是关于高级话题的一章,因为并不是所有的程序员都需要深入Unicode编码或二进制数据的世界。如果你需要关注处理这两种形式,那么,你将会发现Python的字符串模式提供了所需的支持。

Python 3.0中的字符串修改

Python 3.0中最引入注目的修改之一,就是字符串对象类型的变化。简而言之,Python 2.X的str和unicode类型已经融入了Python 3.0的str和bytes类型,并且增加了一种新的可变的类型bytearray。bytearray类型在Python 2.6中也可以使用(但在更早的版本中不能用),但是,它在Python 3.0中得到完全支持,并且不像是Python 2.6中那样清楚地区分文本和二进制内容。

特别是,如果我们处理本质上是Unicode或二进制的数据,这些修改对于代码可能会有切实的影响。实际上,作为首要的一般性规则,我们需要如何关注这一话题,很大程度上取决于遇到如下的哪种情况:

·如果处理非ASCII Unicode文本,例如,在国际化应用程序或某些XML解析器的结果这样的环境中,你将会发现Python 3.0中对文本编码的支持是不同的,但是可能比Python 2.6中的支持更加直接、易用和无缝。

·如果处理二进制数据,例如,使用struct模块处理的图形或音频文件的形式或打包的数据,我们需要理解Python 3.0中新的bytes对象,以及Python 3.0对文本和二进制数据和文件的不同和严格区分。

·如果不属于前面两种情况的任何一种,在Python 3.0中,通常可以像是在Python 2.6中一样使用字符串:使用通用的str字符串类型、文本文件,以及我们前面所介绍的所有熟悉的字符串操作。字符串将使用平台默认的编码来进行编码和解码(例如,美国的Windows上的ASCII或UTF-8,如果我们仔细检查的话,sys.getdefaultencoding()给出默认的编码方式),但是,你可能不会注意。

换句话说,如果你的文本总是ASCII,可以使用常规的字符串对象和文本文件,并且避免下面介绍的大多数情况。正如稍后我们将见到的,ASCII是一种简单的Unicode,并且是其他编码的一个子集,因此,如果你的程序处理ASCII文本,字符串操作和文件“刚好够用”。

即便你遇到了刚刚提及的3种情况的最后一种,然而对Python 3.0字符串模式的基本理解,既可以帮助你理解一些底层的行为,也可以帮助你更容易地掌握Unicode或二进制数据问题,以免它们将来会影响到你。

Python 3.0对Unicode和二进制数据的支持在Python 2.6中也可以使用,虽然形式不同。尽管本章中主要关注的是Python 3.0中的字符串类型,在此过程中,我们还将讨论一些Python 2.6中的不同之处。不管你使用的是哪个版本,我们在这里介绍的工具在很多类型程序中将变得重要起来。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文