- 译者序
- 前言
- 第1章 问答环节
- 第2章 Python 如何运行程序
- 第3章 如何运行程序
- 第4章 介绍 Python 对象类型
- 第5章 数字
- 第6章 动态类型简介
- 第7章 字符串
- 第8章 列表与字典
- 第9章 元组、文件及其他
- 第10章 Python 语句简介
- 第11章 赋值、表达式和打印
- 第12章 if 测试和语法规则
- 第13章 while 和 for 循环
- 第14章 迭代器和解析,第一部分
- 第15章 文档
- 第16章 函数基础
- 第17章 作用域
- 第18章 参数
- 第19章 函数的高级话题
- 第20章 迭代和解析,第二部分
- 第21章 模块:宏伟蓝图
- 第22章 模块代码编写基础
- 第23章 模块包
- 第24章 高级模块话题
- 第25章 OOP:宏伟蓝图
- 第27章 更多实例
- 第28章 类代码编写细节
- 第29章 运算符重载
- 第30章 类的设计
- 第31章 类的高级主题
- 第32章 异常基础
- 第34章 异常对象
- 第35章 异常的设计
- 第36章 Unicode 和字节字符串
- 字符串基础知识
- Python 的字符串类型
- 文本和二进制文件
- Python 3.0 中的字符串应用
- 转换
- 编码 Unicode 字符串
- 编码非ASCII文本
- 编码和解码非ASCII文本
- 其他 Unicode 编码技术
- 转换编码
- 在 Python 2.6 中编码 Unicode 字符串
- 源文件字符集编码声明
- 使用 Python 3.0 Bytes 对象
- 序列操作
- 创建 bytes 对象的其他方式
- 混合字符串类型
- 使用 Python 3.0(和 Python 2.6)bytearray 对象
- 使用文本文件和二进制文件
- Python 3.0 中的文本和二进制模式
- 类型和内容错误匹配
- 使用 Unicode 文件
- 在 Python 3.0 中处理 BOM
- Python 2.6 中的 Unicode 文件
- Python 3.0 中其他字符串工具的变化
- Struct二进制数据模块
- pickle对象序列化模块
- XML解析工具
- 本章小结
- 本章习题
- 习题解答
- 第37章 管理属性
- 第38章 装饰器
- 第39章 元类
- 附录A 安装和配置
- 附录B 各部分练习题的解答
- 作者介绍
- 封面介绍
在 Python 2.6 中编码 Unicode 字符串
为了存储任意的编码的Unicode文本,用u 'xxx'常量形式创建一个unicode对象(这个常量在Python 3.0中不再可用,因为Python 3.0中所有字符串都支持Unicode):
一旦创建了它,可以把Unicode文本转换为不同的raw字节编码,这类似于在Python 3.0中把str对象编码为bytes对象:
在Python 2.6中,非ASCII字符可以用十六进制或Unicode转义来编写到字符串常量中,就像在Python 3.0中一样。然而,和Python 3.0中的bytes一样,在Python 2.6中,"\u..."和"\U..."转义只是识别为unicode字符串,而不是8位str字符串:
就像Python 3.0中的str和bytes一样,Python 2.6的unicode和str共享几乎相同的操作集,因此,除非你需要转换为其他的编码,通常可以把unicode当做是str一样对待。然而,Python 2.6和Python 3.0之间的一个主要区别在于,unicode和非Unicode的str对象可以在表达式中自由地混合,并且,只要str和unicode的编码兼容,Python将自动将其向上转换为unicode(在Python 3.0中,str和bytes不会自动混合,并且需要手动转换):
实际上,类型的不同对于Python 2.6中的代码往往很小。像常规的字符串一样,Unicode字符串也可以合并、索引、分片,用re模块匹配,等等,并且它们不能原处修改。如果需要在两种类型之间显式地转换,可以使用内置的str和unicode函数:
然而,Python 2.6中这种自由混合字符串类型的方法,只有在字符串和unicode对象的编码类型兼容的情况下才有效:
最后,正如我们将在本章稍后更具体介绍的,Python 2.6的open调用只支持8位字节的文件,将其内容返回为str字符串;将其内容解释为文本,还是解释为二进制数并根据需要解码,这取决于你。要读取和编写Unicode文件并自动编码或解码器内容,使用Python 2.6的codecs.open调用,Python 2.6的库手册中有所介绍。这个调用提供了与Python 3.0的open相同的功能,并且使用Python 2.6的unicode对象来表示文件内容——读取一个文件,把编码的字节翻译为解码的Unicode字符,并且在文件打开的时候把翻译字符串写入想要的指定编码。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论