第14章迭代器和解析，第一部分

发布于 2024-01-29 22:24:16 字数 2929 浏览 0 评论 0 收藏 0

在上一章中，我们学习了Python的两种循环语句，while和for。尽管它们能够处理程序所需执行的大多数重复性任务，在序列中迭代的需求是如此常见和广泛，以至于Python提供了额外的工具以使其更简单和高效。本章开始介绍这些工具。尤其是，本章介绍了Python的迭代协议的相关概念——for循环所使用的一种方法调用模式，并且介绍了关于列表解析的一些细节，列表解析是对迭代中的项应用一个表达式的for循环的一种近似形式。

由于这些工具都和for循环及函数相关，我们将在本书中分两个步骤来介绍它们：本章介绍循环工具背景的基础知识，作为上一章的某种延续；第20章在基于函数的工具的背景中回顾它们。在本章中，我们还将展示Python中的额外迭代工具的示例，并接触在Python 3.0中可用的新的迭代器。

首先注意一点：这几章中所介绍的某些概念乍看起来可能有些高级。然而，通过实践，你将发现这些工具很有用并且很强大。尽管这些工具不是严格必需的，但它们已经变成了Python代码中的常用内容，如果你必须阅读他人所编写的程序，那么就应基本理解这些工具。

迭代器：初探

在上一节中介绍过，for循环可以用于Python中任何序列类型，包括列表、元组以及字符串，如下所示：

实际上，for循环甚至比这更为通用：可用于任何可迭代的对象。实际上，对Python中所有会从左至右扫描对象的迭代工具而言都是如此，这些迭代工具包括了for循环、列表解析、in成员关系测试以及map内置函数等。

“可迭代对象”的概念在Python中是相当新颖的，但它在语言的设计中很普遍。基本上，这就是序列观念的通用化：如果对象是实际保存的序列，或者可以在迭代工具环境中（例如，for循环）一次产生一个结果的对象，就看做是可迭代的。总之，可迭代对象包括实际序列和按照需求而计算的虚拟序列^[1]。

文件迭代器

了解迭代器含义的最简单的方式之一就是，看一看它是如何与内置类型一起工作的，例如，文件。回想一下，在第9章中，已打开的文件对象有个方法名为readline，可以一次从一个文件中读取一行文本，每次调用readline方法时，就会前进到下一列。到达文件末尾时，就会返回空字符串，我们可通过它来检测，从而跳出循环。

如今，文件也有一个方法，名为__next__，差不多有相同的效果：每次调用时，就会返回文件中的下一行。唯一值得注意的区别在于，到达文件末尾时，__next__会引发内置的StopIteration异常，而不是返回空字符串。

这个接口就是Python中所谓的迭代协议：有__next__方法的对象会前进到下一个结果，而在一系列结果的末尾时，则会引发StopIteration。在Python中，任何这类对象都认为是可迭代的。任何这类对象也能以for循环或其他迭代工具遍历，因为所有迭代工具内部工作起来都是在每次迭代中调用__next__，并且捕捉StopIteration异常来确定何时离开。

就像第9章所提到过的，这种魔法的效果就是，逐行读取文本文件的最佳方式就是根本不要去读取；其替代的办法就是，让for循环在每轮自动调用next从而前进到下一行。例如，下面是逐行读取文件（程序执行时打印每行的大写版本），但没有刻意从文件中读取内容：

注意，这里的print使用end=''来抑制添加一个\n，因为行字符串已经有了一个（如果没有这点，我们的输出将会变成两行隔开）。上例是读取文本文件的最佳方式，原因有三点：这是最简单的写法，运行最快，并且从内存使用情况来说也是最好的。相同效果的原始方式，是以for循环调用文件的readlines方法，将文件内容加载到内存，做成行字符串的列表。

这个readlines技术依然能用，但如今它已经不是最好的使用方法，而且从内存的使用情况来看，效果很差。实际上，因为这个版本其实是一次把整个文件加载到内存，如果文件太大，以至于计算机内存空间不够，甚至不能够工作。另一方面，因为一次读一行，迭代器版本对这类内存爆炸的问题就有了免疫能力。此外，基于迭代器的版本会根据每次发布而改进，所以它运行的也应该更快（Python 3.0通过重写I/O以支持Unicode文本从而使得这一优点不那么明显，并且更少依赖于系统）。

当然也可以用while循环逐行读取文件。

尽管这样，比起迭代器for循环的版本，这可能运行得更慢一些，因为迭代器在Python中是以C语言的速度运行的，而while循环版本则是通过Python虚拟机运行Python字节码的。任何时候，我们把Python代码换成C程序代码，速度都应该会变快。然而，并非绝对如此，尤其是在Python 3.0中，随后我将介绍一种计时技术，可以用它来衡量像这样的替代方案的相对速度。

[1]这个主题中的术语的使用有点随意。本章交替地使用“可迭代的”和“迭代器”来表示通常支持迭代的一个对象。有时候，术语“可迭代的”指的是支持iter的一个对象，而“迭代器”指的是iter所返回的一个支持next(I)的对象，但是，在Python世界或本书中，这种习惯并不是普遍通用的。

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

第14章 迭代器和解析，第一部分

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

第14章迭代器和解析，第一部分

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。