- 译者序
- 前言
- 第1章 问答环节
- 第2章 Python 如何运行程序
- 第3章 如何运行程序
- 第4章 介绍 Python 对象类型
- 第5章 数字
- 第6章 动态类型简介
- 第7章 字符串
- 第8章 列表与字典
- 第9章 元组、文件及其他
- 第10章 Python 语句简介
- 第11章 赋值、表达式和打印
- 第12章 if 测试和语法规则
- 第13章 while 和 for 循环
- 第14章 迭代器和解析,第一部分
- 第15章 文档
- 第16章 函数基础
- 第17章 作用域
- 第18章 参数
- 第19章 函数的高级话题
- 第20章 迭代和解析,第二部分
- 第21章 模块:宏伟蓝图
- 第22章 模块代码编写基础
- 第23章 模块包
- 第24章 高级模块话题
- 第25章 OOP:宏伟蓝图
- 第27章 更多实例
- 第28章 类代码编写细节
- 第29章 运算符重载
- 第30章 类的设计
- 第31章 类的高级主题
- 第32章 异常基础
- 第34章 异常对象
- 第35章 异常的设计
- 第36章 Unicode 和字节字符串
- 字符串基础知识
- Python 的字符串类型
- 文本和二进制文件
- Python 3.0 中的字符串应用
- 转换
- 编码 Unicode 字符串
- 编码非ASCII文本
- 编码和解码非ASCII文本
- 其他 Unicode 编码技术
- 转换编码
- 在 Python 2.6 中编码 Unicode 字符串
- 源文件字符集编码声明
- 使用 Python 3.0 Bytes 对象
- 序列操作
- 创建 bytes 对象的其他方式
- 混合字符串类型
- 使用 Python 3.0(和 Python 2.6)bytearray 对象
- 使用文本文件和二进制文件
- Python 3.0 中的文本和二进制模式
- 类型和内容错误匹配
- 使用 Unicode 文件
- 在 Python 3.0 中处理 BOM
- Python 2.6 中的 Unicode 文件
- Python 3.0 中其他字符串工具的变化
- Struct二进制数据模块
- pickle对象序列化模块
- XML解析工具
- 本章小结
- 本章习题
- 习题解答
- 第37章 管理属性
- 第38章 装饰器
- 第39章 元类
- 附录A 安装和配置
- 附录B 各部分练习题的解答
- 作者介绍
- 封面介绍
第14章 迭代器和解析,第一部分
由于这些工具都和for循环及函数相关,我们将在本书中分两个步骤来介绍它们:本章介绍循环工具背景的基础知识,作为上一章的某种延续;第20章在基于函数的工具的背景中回顾它们。在本章中,我们还将展示Python中的额外迭代工具的示例,并接触在Python 3.0中可用的新的迭代器。
首先注意一点:这几章中所介绍的某些概念乍看起来可能有些高级。然而,通过实践,你将发现这些工具很有用并且很强大。尽管这些工具不是严格必需的,但它们已经变成了Python代码中的常用内容,如果你必须阅读他人所编写的程序,那么就应基本理解这些工具。
迭代器:初探
在上一节中介绍过,for循环可以用于Python中任何序列类型,包括列表、元组以及字符串,如下所示:
实际上,for循环甚至比这更为通用:可用于任何可迭代的对象。实际上,对Python中所有会从左至右扫描对象的迭代工具而言都是如此,这些迭代工具包括了for循环、列表解析、in成员关系测试以及map内置函数等。
“可迭代对象”的概念在Python中是相当新颖的,但它在语言的设计中很普遍。基本上,这就是序列观念的通用化:如果对象是实际保存的序列,或者可以在迭代工具环境中(例如,for循环)一次产生一个结果的对象,就看做是可迭代的。总之,可迭代对象包括实际序列和按照需求而计算的虚拟序列[1]。
文件迭代器
了解迭代器含义的最简单的方式之一就是,看一看它是如何与内置类型一起工作的,例如,文件。回想一下,在第9章中,已打开的文件对象有个方法名为readline,可以一次从一个文件中读取一行文本,每次调用readline方法时,就会前进到下一列。到达文件末尾时,就会返回空字符串,我们可通过它来检测,从而跳出循环。
如今,文件也有一个方法,名为__next__,差不多有相同的效果:每次调用时,就会返回文件中的下一行。唯一值得注意的区别在于,到达文件末尾时,__next__会引发内置的StopIteration异常,而不是返回空字符串。
这个接口就是Python中所谓的迭代协议:有__next__方法的对象会前进到下一个结果,而在一系列结果的末尾时,则会引发StopIteration。在Python中,任何这类对象都认为是可迭代的。任何这类对象也能以for循环或其他迭代工具遍历,因为所有迭代工具内部工作起来都是在每次迭代中调用__next__,并且捕捉StopIteration异常来确定何时离开。
就像第9章所提到过的,这种魔法的效果就是,逐行读取文本文件的最佳方式就是根本不要去读取;其替代的办法就是,让for循环在每轮自动调用next从而前进到下一行。例如,下面是逐行读取文件(程序执行时打印每行的大写版本),但没有刻意从文件中读取内容:
注意,这里的print使用end=''来抑制添加一个\n,因为行字符串已经有了一个(如果没有这点,我们的输出将会变成两行隔开)。上例是读取文本文件的最佳方式,原因有三点:这是最简单的写法,运行最快,并且从内存使用情况来说也是最好的。相同效果的原始方式,是以for循环调用文件的readlines方法,将文件内容加载到内存,做成行字符串的列表。
这个readlines技术依然能用,但如今它已经不是最好的使用方法,而且从内存的使用情况来看,效果很差。实际上,因为这个版本其实是一次把整个文件加载到内存,如果文件太大,以至于计算机内存空间不够,甚至不能够工作。另一方面,因为一次读一行,迭代器版本对这类内存爆炸的问题就有了免疫能力。此外,基于迭代器的版本会根据每次发布而改进,所以它运行的也应该更快(Python 3.0通过重写I/O以支持Unicode文本从而使得这一优点不那么明显,并且更少依赖于系统)。
当然也可以用while循环逐行读取文件。
尽管这样,比起迭代器for循环的版本,这可能运行得更慢一些,因为迭代器在Python中是以C语言的速度运行的,而while循环版本则是通过Python虚拟机运行Python字节码的。任何时候,我们把Python代码换成C程序代码,速度都应该会变快。然而,并非绝对如此,尤其是在Python 3.0中,随后我将介绍一种计时技术,可以用它来衡量像这样的替代方案的相对速度。
[1]这个主题中的术语的使用有点随意。本章交替地使用“可迭代的”和“迭代器”来表示通常支持迭代的一个对象。有时候,术语“可迭代的”指的是支持iter的一个对象,而“迭代器”指的是iter所返回的一个支持next(I)的对象,但是,在Python世界或本书中,这种习惯并不是普遍通用的。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论