- 译者序
- 前言
- 第1章 问答环节
- 第2章 Python 如何运行程序
- 第3章 如何运行程序
- 第4章 介绍 Python 对象类型
- 第5章 数字
- 第6章 动态类型简介
- 第7章 字符串
- 第8章 列表与字典
- 第9章 元组、文件及其他
- 第10章 Python 语句简介
- 第11章 赋值、表达式和打印
- 第12章 if 测试和语法规则
- 第13章 while 和 for 循环
- 第14章 迭代器和解析,第一部分
- 第15章 文档
- 第16章 函数基础
- 第17章 作用域
- 第18章 参数
- 第19章 函数的高级话题
- 第20章 迭代和解析,第二部分
- 第21章 模块:宏伟蓝图
- 第22章 模块代码编写基础
- 第23章 模块包
- 第24章 高级模块话题
- 第25章 OOP:宏伟蓝图
- 第27章 更多实例
- 第28章 类代码编写细节
- 第29章 运算符重载
- 第30章 类的设计
- 第31章 类的高级主题
- 第32章 异常基础
- 第34章 异常对象
- 第35章 异常的设计
- 第36章 Unicode 和字节字符串
- 字符串基础知识
- Python 的字符串类型
- 文本和二进制文件
- Python 3.0 中的字符串应用
- 转换
- 编码 Unicode 字符串
- 编码非ASCII文本
- 编码和解码非ASCII文本
- 其他 Unicode 编码技术
- 转换编码
- 在 Python 2.6 中编码 Unicode 字符串
- 源文件字符集编码声明
- 使用 Python 3.0 Bytes 对象
- 序列操作
- 创建 bytes 对象的其他方式
- 混合字符串类型
- 使用 Python 3.0(和 Python 2.6)bytearray 对象
- 使用文本文件和二进制文件
- Python 3.0 中的文本和二进制模式
- 类型和内容错误匹配
- 使用 Unicode 文件
- 在 Python 3.0 中处理 BOM
- Python 2.6 中的 Unicode 文件
- Python 3.0 中其他字符串工具的变化
- Struct二进制数据模块
- pickle对象序列化模块
- XML解析工具
- 本章小结
- 本章习题
- 习题解答
- 第37章 管理属性
- 第38章 装饰器
- 第39章 元类
- 附录A 安装和配置
- 附录B 各部分练习题的解答
- 作者介绍
- 封面介绍
第7章 字符串
从功能的角度来看,字符串可以用来表示能够像文本那样编辑的任何信息:符号和词语(例如,你的名字)、载入到内存中的文本文件的内容、Internet网址和Python程序等。它们可以用来存储字节的绝对二进制值,以及在国际化程序中用到的多字节的Unicode。
你也许在其他语言中也用过字符串,Python当中的字符串与其他语言(例如,C语言)中的字符数组扮演着同样的角色,然而从某种程度上来说,它们是比数组更高层的工具。在Python中,字符串变成了一种强大的处理工具集,这一点与C语言不同。并且Python和像C这样的语言不一样,没有单个字符的这种类型,取而代之的是可以使用一个字符的字符串。
严格地说,Python的字符串被划分为不可变序列这一类别,意味着这些字符串所包含的字符存在从左至右的位置顺序,并且它们不可以在原处修改。实际上,字符串是我们将学习的从属于稍大一些的对象类别——序列的第一个代表。请格外留意本章所介绍的序列操作,因为它在今后要学习的其他序列类型(例如列表和元组)中同样也适用。
表7-1介绍了本章将要讨论到的常见的字符串常量和操作。空字符串表示为一对引号(单引号或双引号),其中什么都没有,还有许多方法编写字符串。处理字符串支持表达式的操作,例如,合并(组合字符串)、分片(抽取一部分)、索引(通过偏移获取)等。除了表达式,Python还提供了一系列的字符串方法,可以执行字符串常见的特定任务,还有用于执行如模式匹配这样的高级文本处理的任务模块。我们将会在本章学习这些内容。
除了核心系列的字符串工具以外,Python通过标准库re模块(正则表达式)还支持更高级的基于模式的字符串处理,这在第4章介绍过;甚至还有更高级的文本处理工具,如XML解析器,我们将在第36章简单介绍。然而,本书主要关注表7-1介绍的基本表示。本章将会以字符串常量的形式以及基本的字符串操作作为开始,之后将会学习字符串方法和格式等更高级的工具。Python带有很多字符串工具,我们不会在这里介绍所有这些工具;完整的介绍可以在Python的库手册中找到。这里,我们的目标是介绍很常用的工具以给出一个有代表性的例子,我们在这里没有介绍的那些方法,和我们见到的方法在很大程度上是类似的。
注意:内容提示:从技术上讲,本章介绍的只是Python中的字符串内容的一部分,即大多数程序员需要知道的内容。它介绍了基本的str字符串类型,该类型用来处理ASCII文本并且不管使用何种Python版本都能同样地工作。也就是说,本章有意把讨论范围限制在大多数Python脚本中会用到的字符串处理基础知识。
从更为正式的角度讲,ASCII是Unicode文本的一种简单形式。Python通过包含各种不同的对象类型,解决了文本和二进制数据之间的区别:
·Python 3.0中,有3种字符串类型:str用于Unicode文本(ASCII或其他),bytes用于二进制数据(包括编码的文本),bytearray是bytes的一种可变的变体。
·在Python 2.6中,unicode字符串表示宽Unicode文本,str字符串处理8位文本和二进制数据。
bytearray类型在Python 2.6及其以后的版本中可用,但在更早的版本就不可用了,并且它在其他版本中并不像在Python 3.0中那样与二进制数据紧密相连。由于大多数程序员不需要深入了解Unicode编码或二进制数据格式的细节,我们将这些细节放到本书的高级话题部分的第36章中介绍。
如果你需要了解替代字符集或打包的二进制数据和文件这样更高级的字符串概念,在阅读完本章内容后继续阅读第36章。现在,我们将关注基本的字符串类型及其操作。你将会发现,我们这里所学习的基础知识也直接应用于Python的工具集中更高级的字符串类型。
字符串常量
从整体上来讲,Python中的字符串用起来还是相当的简单的。也许最复杂的事情就是在代码中有如此多的方法去编写它们:
·单引号:'spa"m'
·双引号:"spa'm"
·三引号:'''...spam...''',"""...spam..."""
·转义字符:"s\tp\na\0m"
·Raw字符串:r"C:\new\test.spm"
·Python 3.0中的Byte字符串(参见第36章):b'sp\x01am'
·仅在Python 2.6中使用的Unicode字符串(参见第36章):u'eggs\u0020spam'
单引号和双引号的形式尤其常见。其他的形式都是有特定角色的,并且我们将推迟到本书第36章再讨论最后两种高级形式。让我们先快速看看其他的形式。
单双引号字符串是一样的
在Python字符串中,单引号和双引号字符是可以互换的。也就是说,字符串常量表达式可以用两个单引号或两个双引号来表示——两种形式同样有效并返回相同类型的对象。例如,程序一旦这样编写,就意味着二者是等效的:
之所以这两种形式都能够使用是因为你不使用反斜杠转义字符就可以实现在一个字符串中包含其余种类的引号。可以在一个双引号字符所包含的字符串中嵌入一个单引号字符,反之亦然:
此外,Python自动在任意的表达式中合并相邻的字符串常量,尽管可以简单地在它们之间增加+操作符来明确地表示这是一个合并操作(在第12章中将会看到,把这种形式放到圆括号中,就可以允许它跨越多行):
注意,在这些字符串之间增加逗号会创建一个元组,而不是一个字符串。并且Python倾向于打印所有这些形式的字符串为单引号,除非字符串内有了单引号了。你也能通过反斜杠转义字符去嵌入引号:
想要了解原因,需要知道一般情况转义字符是如何工作的。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论