返回介绍

第7章 字符串

发布于 2024-01-29 22:24:17 字数 3054 浏览 0 评论 0 收藏 0

我们内置对象之旅的下一个主要的类型为Python字符串——一个有序的字符的集合,用来存储和表现基于文本的信息。我们曾在第4章对字符串进行过简单的介绍。这里我们将会更深入地再次学习,补充一些当时跳过的细节。

从功能的角度来看,字符串可以用来表示能够像文本那样编辑的任何信息:符号和词语(例如,你的名字)、载入到内存中的文本文件的内容、Internet网址和Python程序等。它们可以用来存储字节的绝对二进制值,以及在国际化程序中用到的多字节的Unicode。

你也许在其他语言中也用过字符串,Python当中的字符串与其他语言(例如,C语言)中的字符数组扮演着同样的角色,然而从某种程度上来说,它们是比数组更高层的工具。在Python中,字符串变成了一种强大的处理工具集,这一点与C语言不同。并且Python和像C这样的语言不一样,没有单个字符的这种类型,取而代之的是可以使用一个字符的字符串。

严格地说,Python的字符串被划分为不可变序列这一类别,意味着这些字符串所包含的字符存在从左至右的位置顺序,并且它们不可以在原处修改。实际上,字符串是我们将学习的从属于稍大一些的对象类别——序列的第一个代表。请格外留意本章所介绍的序列操作,因为它在今后要学习的其他序列类型(例如列表和元组)中同样也适用。

表7-1介绍了本章将要讨论到的常见的字符串常量和操作。空字符串表示为一对引号(单引号或双引号),其中什么都没有,还有许多方法编写字符串。处理字符串支持表达式的操作,例如,合并(组合字符串)、分片(抽取一部分)、索引(通过偏移获取)等。除了表达式,Python还提供了一系列的字符串方法,可以执行字符串常见的特定任务,还有用于执行如模式匹配这样的高级文本处理的任务模块。我们将会在本章学习这些内容。

除了核心系列的字符串工具以外,Python通过标准库re模块(正则表达式)还支持更高级的基于模式的字符串处理,这在第4章介绍过;甚至还有更高级的文本处理工具,如XML解析器,我们将在第36章简单介绍。然而,本书主要关注表7-1介绍的基本表示。本章将会以字符串常量的形式以及基本的字符串操作作为开始,之后将会学习字符串方法和格式等更高级的工具。Python带有很多字符串工具,我们不会在这里介绍所有这些工具;完整的介绍可以在Python的库手册中找到。这里,我们的目标是介绍很常用的工具以给出一个有代表性的例子,我们在这里没有介绍的那些方法,和我们见到的方法在很大程度上是类似的。

注意:内容提示:从技术上讲,本章介绍的只是Python中的字符串内容的一部分,即大多数程序员需要知道的内容。它介绍了基本的str字符串类型,该类型用来处理ASCII文本并且不管使用何种Python版本都能同样地工作。也就是说,本章有意把讨论范围限制在大多数Python脚本中会用到的字符串处理基础知识。

从更为正式的角度讲,ASCII是Unicode文本的一种简单形式。Python通过包含各种不同的对象类型,解决了文本和二进制数据之间的区别:

·Python 3.0中,有3种字符串类型:str用于Unicode文本(ASCII或其他),bytes用于二进制数据(包括编码的文本),bytearray是bytes的一种可变的变体。

·在Python 2.6中,unicode字符串表示宽Unicode文本,str字符串处理8位文本和二进制数据。

bytearray类型在Python 2.6及其以后的版本中可用,但在更早的版本就不可用了,并且它在其他版本中并不像在Python 3.0中那样与二进制数据紧密相连。由于大多数程序员不需要深入了解Unicode编码或二进制数据格式的细节,我们将这些细节放到本书的高级话题部分的第36章中介绍。

如果你需要了解替代字符集或打包的二进制数据和文件这样更高级的字符串概念,在阅读完本章内容后继续阅读第36章。现在,我们将关注基本的字符串类型及其操作。你将会发现,我们这里所学习的基础知识也直接应用于Python的工具集中更高级的字符串类型。

字符串常量

从整体上来讲,Python中的字符串用起来还是相当的简单的。也许最复杂的事情就是在代码中有如此多的方法去编写它们:

·单引号:'spa"m'

·双引号:"spa'm"

·三引号:'''...spam...''',"""...spam..."""

·转义字符:"s\tp\na\0m"

·Raw字符串:r"C:\new\test.spm"

·Python 3.0中的Byte字符串(参见第36章):b'sp\x01am'

·仅在Python 2.6中使用的Unicode字符串(参见第36章):u'eggs\u0020spam'

单引号和双引号的形式尤其常见。其他的形式都是有特定角色的,并且我们将推迟到本书第36章再讨论最后两种高级形式。让我们先快速看看其他的形式。

单双引号字符串是一样的

在Python字符串中,单引号和双引号字符是可以互换的。也就是说,字符串常量表达式可以用两个单引号或两个双引号来表示——两种形式同样有效并返回相同类型的对象。例如,程序一旦这样编写,就意味着二者是等效的:

之所以这两种形式都能够使用是因为你不使用反斜杠转义字符就可以实现在一个字符串中包含其余种类的引号。可以在一个双引号字符所包含的字符串中嵌入一个单引号字符,反之亦然:

此外,Python自动在任意的表达式中合并相邻的字符串常量,尽管可以简单地在它们之间增加+操作符来明确地表示这是一个合并操作(在第12章中将会看到,把这种形式放到圆括号中,就可以允许它跨越多行):

注意,在这些字符串之间增加逗号会创建一个元组,而不是一个字符串。并且Python倾向于打印所有这些形式的字符串为单引号,除非字符串内有了单引号了。你也能通过反斜杠转义字符去嵌入引号:

想要了解原因,需要知道一般情况转义字符是如何工作的。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文