- 译者序
- 前言
- 第1章 问答环节
- 第2章 Python 如何运行程序
- 第3章 如何运行程序
- 第4章 介绍 Python 对象类型
- 第5章 数字
- 第6章 动态类型简介
- 第7章 字符串
- 第8章 列表与字典
- 第9章 元组、文件及其他
- 第10章 Python 语句简介
- 第11章 赋值、表达式和打印
- 第12章 if 测试和语法规则
- 第13章 while 和 for 循环
- 第14章 迭代器和解析,第一部分
- 第15章 文档
- 第16章 函数基础
- 第17章 作用域
- 第18章 参数
- 第19章 函数的高级话题
- 第20章 迭代和解析,第二部分
- 第21章 模块:宏伟蓝图
- 第22章 模块代码编写基础
- 第23章 模块包
- 第24章 高级模块话题
- 第25章 OOP:宏伟蓝图
- 第27章 更多实例
- 第28章 类代码编写细节
- 第29章 运算符重载
- 第30章 类的设计
- 第31章 类的高级主题
- 第32章 异常基础
- 第34章 异常对象
- 第35章 异常的设计
- 第36章 Unicode 和字节字符串
- 字符串基础知识
- Python 的字符串类型
- 文本和二进制文件
- Python 3.0 中的字符串应用
- 转换
- 编码 Unicode 字符串
- 编码非ASCII文本
- 编码和解码非ASCII文本
- 其他 Unicode 编码技术
- 转换编码
- 在 Python 2.6 中编码 Unicode 字符串
- 源文件字符集编码声明
- 使用 Python 3.0 Bytes 对象
- 序列操作
- 创建 bytes 对象的其他方式
- 混合字符串类型
- 使用 Python 3.0(和 Python 2.6)bytearray 对象
- 使用文本文件和二进制文件
- Python 3.0 中的文本和二进制模式
- 类型和内容错误匹配
- 使用 Unicode 文件
- 在 Python 3.0 中处理 BOM
- Python 2.6 中的 Unicode 文件
- Python 3.0 中其他字符串工具的变化
- Struct二进制数据模块
- pickle对象序列化模块
- XML解析工具
- 本章小结
- 本章习题
- 习题解答
- 第37章 管理属性
- 第38章 装饰器
- 第39章 元类
- 附录A 安装和配置
- 附录B 各部分练习题的解答
- 作者介绍
- 封面介绍
第36章 Unicode 和字节字符串
另一方面,一些程序员处理更加专业的数据类型:非ASCII的字符串集、图像文件内容,等等。对于这些程序员(以及其他可能某一天加入这一队伍的程序员),在本章中,我们将介绍Python字符串的其他内容,并且探讨Python字符串模型中一些较为高级的话题。
特别是,我们将介绍Python支持的Unicode文本的基础知识——在国际化应用程序中使用的宽字符字符串,以及二进制数据——表示绝对的字节值的字符串。我们将看到,高级的字符串表示法在Python当前版本中已经产生了分歧:
·Python 3.0为二进制数据提供了一种替代字符串类型,并且在其常规的字符串类型中支持Unicode文本(ASCII看作Unicode的一种简单类型)。
·Python 2.6为非ASCII Unicode文本提供了一种替代字符串类型,并且在其常规的字符串类型中支持简单文本和二进制数据。
此外,由于Python的字符串模式对于如何处理非ASCII文件有着直接的影响,我们还将在这里介绍相关话题的基础知识。最后,我们还将简单地看看一些高级字符串和二进制工具,例如模式匹配、对象pickle化、二进制数据包装和XML解析,以及Python 3.0的字符串变化对它们产生影响的方式。
正式来说,本章是关于高级话题的一章,因为并不是所有的程序员都需要深入Unicode编码或二进制数据的世界。如果你需要关注处理这两种形式,那么,你将会发现Python的字符串模式提供了所需的支持。
Python 3.0中的字符串修改
Python 3.0中最引入注目的修改之一,就是字符串对象类型的变化。简而言之,Python 2.X的str和unicode类型已经融入了Python 3.0的str和bytes类型,并且增加了一种新的可变的类型bytearray。bytearray类型在Python 2.6中也可以使用(但在更早的版本中不能用),但是,它在Python 3.0中得到完全支持,并且不像是Python 2.6中那样清楚地区分文本和二进制内容。
特别是,如果我们处理本质上是Unicode或二进制的数据,这些修改对于代码可能会有切实的影响。实际上,作为首要的一般性规则,我们需要如何关注这一话题,很大程度上取决于遇到如下的哪种情况:
·如果处理非ASCII Unicode文本,例如,在国际化应用程序或某些XML解析器的结果这样的环境中,你将会发现Python 3.0中对文本编码的支持是不同的,但是可能比Python 2.6中的支持更加直接、易用和无缝。
·如果处理二进制数据,例如,使用struct模块处理的图形或音频文件的形式或打包的数据,我们需要理解Python 3.0中新的bytes对象,以及Python 3.0对文本和二进制数据和文件的不同和严格区分。
·如果不属于前面两种情况的任何一种,在Python 3.0中,通常可以像是在Python 2.6中一样使用字符串:使用通用的str字符串类型、文本文件,以及我们前面所介绍的所有熟悉的字符串操作。字符串将使用平台默认的编码来进行编码和解码(例如,美国的Windows上的ASCII或UTF-8,如果我们仔细检查的话,sys.getdefaultencoding()给出默认的编码方式),但是,你可能不会注意。
换句话说,如果你的文本总是ASCII,可以使用常规的字符串对象和文本文件,并且避免下面介绍的大多数情况。正如稍后我们将见到的,ASCII是一种简单的Unicode,并且是其他编码的一个子集,因此,如果你的程序处理ASCII文本,字符串操作和文件“刚好够用”。
即便你遇到了刚刚提及的3种情况的最后一种,然而对Python 3.0字符串模式的基本理解,既可以帮助你理解一些底层的行为,也可以帮助你更容易地掌握Unicode或二进制数据问题,以免它们将来会影响到你。
Python 3.0对Unicode和二进制数据的支持在Python 2.6中也可以使用,虽然形式不同。尽管本章中主要关注的是Python 3.0中的字符串类型,在此过程中,我们还将讨论一些Python 2.6中的不同之处。不管你使用的是哪个版本,我们在这里介绍的工具在很多类型程序中将变得重要起来。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论