- 第 1 章 安装 Python
- 1.2. Windows 上的 Python
- 1.3. Mac OS X 上的 Python
- 1.4. Mac OS 9 上的 Python
- 1.5. RedHat Linux 上的 Python
- 1.6. Debian GNU/Linux 上的 Python
- 1.7. 从源代码安装 Python
- 1.8. 使用 Python 的交互 Shell
- 1.9. 小结
- 第 2 章 第一个 Python 程序
- 2.2. 函数声明
- 2.3. 文档化函数
- 2.4. 万物皆对象
- 2.5. 代码缩进
- 2.6. 测试模块
- 第 3 章 内置数据类型
- 3.2. List 介绍
- 3.3. Tuple 介绍
- 3.4. 变量声明
- 3.5. 格式化字符串
- 3.6. 映射 list
- 3.7. 连接 list 与分割字符串
- 3.8. 小结
- 第 4 章 自省的威力
- 4.2. 使用可选参数和命名参数
- 4.3. 使用 type、str、dir 和其它内置函数
- 4.4. 通过 getattr 获取对象引用
- 4.5. 过滤列表
- 4.6. and 和 or 的特殊性质
- 4.7. 使用 lambda 函数
- 4.8. 全部放在一起
- 4.9. 小结
- 第 5 章 对象和面向对象
- 5.2. 使用 from module import 导入模块
- 5.3. 类的定义
- 5.4. 类的实例化
- 5.5. 探索 UserDict: 一个封装类
- 5.6. 专用类方法
- 5.7. 高级专用类方法
- 5.8. 类属性介绍
- 5.9. 私有函数
- 5.10. 小结
- 第 6 章 异常和文件处理
- 6.2. 与文件对象共事
- 6.3. for 循环
- 6.4. 使用 sys.modules
- 6.5. 与 Directory 共事
- 6.6. 全部放在一起
- 6.7. 小结
- 第 7 章 正则表达式
- 7.2. 个案研究:街道地址
- 7.3. 个案研究:罗马字母
- 7.4. 使用{n,m} 语法
- 7.5. 松散正则表达式
- 7.6. 个案研究: 解析电话号码
- 7.7. 小结
- 第 8 章 HTML 处理
- 8.2. sgmllib.py 介绍
- 8.3. 从 HTML 文档中提取数据
- 8.4. BaseHTMLProcessor.py 介绍
- 8.5. locals 和 globals
- 8.6. 基于 dictionary 的字符串格式化
- 8.7. 给属性值加引号
- 8.8. dialect.py 介绍
- 8.9. 全部放在一起
- 8.10. 小结
- 第 9 章 XML 处理
- 9.2. 包
- 9.3. XML 解析
- 9.4. Unicode
- 9.5. 搜索元素
- 9.6. 访问元素属性
- 9.7. Segue
- 第 10 章 Scripts 和 Streams
- 10.2. 标准输入、输出和错误
- 10.3. 缓冲节点查询
- 10.4. 查找节点的直接子节点
- 10.5. 通过节点类型创建独立的处理句柄 Creating separate handlers by node type
- 10.6. 处理命令行参数
- 10.7. 全部放在一起
- 10.8. 小结
- 第 11 章 HTTP Web 服务
- 11.2. 避免通过 HTTP 重复地获取数据
- 11.3. HTTP 的特性
- 11.4. 调试 HTTP web 服务
- 11.5. 设置 User-Agent
- 11.6. 处理 Last-Modified 和 ETag
- 11.7. 处理重定向
- 11.8. 处理被压缩的数据
- 11.9. 全部放在一起
- 11.10. 小结
- 第 12 章 SOAP Web 服务
- 12.2. 安装 SOAP 库
- 12.3. 步入 SOAP
- 12.4. SOAP 网络服务查错
- 12.5. WSDL 介绍
- 12.6. 以 WSDL 进行 SOAP 内省
- 12.7. 搜索 Google
- 12.8. SOAP 网络服务故障排除
- 12.9. 小结
- 第 13 章 单元测试
- 13.2. 深入
- 13.3. 介绍 romantest.py
- 13.4. 正面测试(Testing for success)
- 13.5. 负面测试(Testing for failure)
- 13.6. 完备性检测(Testing for sanity)
- 第 14 章 以测试优先为原则的编程
- 14.2. roman.py, 第 2 阶段
- 14.3. roman.py, 第 3 阶段
- 14.4. roman.py, 第 4 阶段
- 14.5. roman.py, 第 5 阶段
- 第 15 章 重构
- 15.2. 应对需求变化
- 15.3. 重构
- 15.4. 后记
- 15.5. 小结
- 第 16 章 有效编程(Functional Programming)
- 16.2. 找到路径
- 16.3. 过滤已访问列表
- 16.4. 关联已访问列表
- 16.5. 数据中心思想编程
- 16.6. 动态导入模块
- 16.7. 全部放在一起
- 16.8. 小结
- 第 17 章 动态函数
- 17.2. plural.py, 第 1 阶段
- 17.3. plural.py, 第 2 阶段
- 17.4. plural.py, 第 3 阶段
- 17.5. plural.py, 第 4 阶段
- 17.6. plural.py, 第 5 阶段
- 17.7. plural.py, 第 6 阶段
- 17.8. 小结
- 第 18 章 性能优化
- 18.2. 使用 timeit 模块
- 18.3. 优化正则表达式
- 18.4. 优化字典查找
- 18.5. 优化列表操作
- 18.6. 优化字符串操作
- 18.7. 小结
- 附录 A. 进一步阅读
- 附录 B. 五分钟回顾
- 附录 C. 技巧和窍门
- 附录 D. 示例清单
- 附录 E. 修订历史
- 附录 F. 关于本书
- 附录 G. GNU Free Documentation License
- G.1. Applicability and definitions
- G.2. Verbatim copying
- G.3. Copying in quantity
- G.4. Modifications
- G.5. Combining documents
- G.6. Collections of documents
- G.7. Aggregation with independent works
- G.8. Translation
- G.9. Termination
- G.10. Future revisions of this license
- G.11. How to use this License for your documents
- 附录 H. Python license
- H.B. Terms and conditions for accessing or otherwise using Python
附录 B. 五分钟回顾
附录 B. 五分钟回顾
第 1 章 安装 Python
- 1.1. 哪一种 Python 适合您?
学习 Python 的第一件事就是安装, 不是吗?
- 1.2. Windows 上的 Python
在 Windows 上, 安装 Python 有两种选择。
- 1.3. Mac OS X 上的 Python
在 Mac OS X 上, 对于安装 Python 有两种选择: 安装或不安装。您可能想要安装它。
- 1.4. Mac OS 9 上的 Python
Mac OS 9 上没有预装任何版本的 Python, 安装相对简单, 只有一种选择。
- 1.5. RedHat Linux 上的 Python
在 http://www.python.org/ftp/python/ 选择列出的最新的版本号, 然后选择 其中的rpms/ 目录下载最新的 Python RPM 。 使用
rpm
命令进行安装, 操作如下所示: - 1.6. Debian GNU/Linux 上的 Python
如果您碰巧运行在 Debian GNU/Linux 上, 安装 Python 需要使用
apt
命令。 - 1.7. 从源代码安装 Python
如果您宁愿从源码创建, 可以从 http://www.python.org/ftp/python/下载 Python 的源代码。选择最新的版本, 下载.tgz 文件, 执行通常的 configure, make, make install 步骤。
- 1.8. 使用 Python 的交互 Shell
既然我们已经安装了 Python , 那么我们运行的这个交互shell是什么东西呢?
- 1.9. 小结
您现在应该已经安装了一个可以工作的 Python 版本了。
第 2 章 第一个 Python 程序
- 2.1. 概览
这是一个完整的, 可执行的 Python 程序。
- 2.2. 函数声明
与其它大多数语言一样 Python 有函数, 但是它没有像 C++ 一样的独立的头文件;或者像 Pascal 一样的分离的 interface/implementation 段。 一旦需要函数时, 像下面这样声明即可:
- 2.3. 文档化函数
可以通过给出一个 doc string (文档字符串) 文档化一个 Python 函数。
- 2.4. 万物皆对象
在 Python 中, 函数同其它东西一样也是对象。
- 2.5. 代码缩进
Python 函数没有明显的 begin 和 end, 没有花括号, 用于标函数的开始和结束。 唯一的分隔符是一个冒号 (:), 接着代码本身是缩进的。
- 2.6. 测试模块
所有的 Python 模块都是对象并且有几个有用的属性。 您可以使用这些属性方便地测试您所书写的模块。 下面是一个使用 if __name__ 的技巧。
第 3 章 内置数据类型
- 3.1. Dictionary 介绍
Dictionary 是 Python 的内置数据类型之一, 它定义了键和值之间一对一的关系。
- 3.2. List 介绍
List 是 Python 中使用最频繁的数据类型。 如果您对 list 仅有的经验就是在 Visual Basic 中的数组或 Powerbuilder 中的数据存储, 那么就打起精神学习 Python 的 list 吧。
- 3.3. Tuple 介绍
Tuple 是不可变 list。 一旦创建了一个 tuple 就不能以任何方式改变它。
- 3.4. 变量声明
Python 与大多数其它语言一样有局部变量和全局变量之分, 但是它没有明显的变量声明。变量通过首次赋值产生, 当超出作用范围时自动消亡。
- 3.5. 格式化字符串
Python 支持格式化字符串的输出 。尽管这样可能会用到非常复杂的表达式, 但最基本的用法是将一个值插入到一个有字符串格式符 %s 的字符串中。
- 3.6. 映射 list
Python 的强大特性之一是其对 list 的解析, 它提供一种紧凑的方法, 可以通过对 list 中的每个元素应用一个函数, 从而将一个 list 映射为另一个 list。
- 3.7. 连接 list 与分割字符串
您有了一个形如 key=value 的 key-value 对 list, 并且想将它们合成为单个字符串。为了将任意包含字符串的 list 连接成单个字符串, 可以使用字符串对象的 join 方法。
- 3.8. 小结
现在 odbchelper.py 程序和它的输出结果都应该非常清楚了。
第 4 章 自省的威力
- 4.1. 概览
下面是一个完整可运行的 Python 程序。大概看一下这段程序,你应该可以理解不少了。用数字标出的行阐述了 第 2 章 第一个 Python 程序 中涉及的一些概念。如果剩下来的代码看起来有点奇怪,不用担心,通过阅读本章你将会理解所有这些。
- 4.2. 使用可选参数和命名参数
Python 允许函数参数有缺省值;如果调用函数时不使用参数,参数将获得它的缺省值。此外,通过使用命名参数还可以以任意顺序指定参数。SQL Server Transact/SQL 中的存储过程也可以做到这些;如果你是脚本高手,你可以略过这部分。
- 4.3. 使用 type、str、dir 和其它内置函数
Python 有小部分相当有用的内置函数。除这些函数之外,其它所有的函数都被分到了各个模块中。其实这是一个非常明智的设计决策,避免了核心语言变得像其它脚本语言一样臃肿(咳 咳,Visual Basic)。
- 4.4. 通过 getattr 获取对象引用
你已经知道 Python 函数是对象。 你不知道的是,使用 getattr 函数,可以得到一个直到运行时才知道名称的函数的引用。
- 4.5. 过滤列表
如你所知,Python 具有通过列表解析(第 3.6 节 “映射 list”)将列表映射到其它列表的强大能力。这种能力同过滤机制结合使用,使列表中的有些元素被映射的同时跳过另外一些元素。
- 4.6. and 和 or 的特殊性质
在Python 中,and 和 or 执行布尔逻辑演算,如你所期待的一样,但是它们并不返回布尔值;而是,返回它们实际进行比较的值之一。
- 4.7. 使用 lambda 函数
Python 支持一种有趣的语法,它允许你快速定义单行的最小函数。这些叫做 lambda 的函数,是从 Lisp 借用来的,可以用在任何需要函数的地方。
- 4.8. 全部放在一起
最后一行代码是唯一还没有解释过的,它完成全部的工作。但是现在工作已经简单了,因为所需要的每件事都已经按照需求建立好了。所有的多米诺骨牌已经就位,到了将它们推倒的时候了。
- 4.9. 小结
apihelper.py 程序和它的输出现在应该非常清晰了。
第 5 章 对象和面向对象
- 5.1. 概览
下面是一个完整的,可运行的 Python 程序。请阅读模块、类和函数的 doc strings,可以大概了解这个程序所做的事情和工作情况。象平时一样,不用担心你不理解的东西,这就是本章其它部分将告诉你的内容。
- 5.2. 使用 from module import 导入模块
Python 有两种导入模块的方法。两种都有用,你应该知道什么时候使用哪一种方法。一种方法, import module,你已经在第 2.4 节 “万物皆对象”看过了。另一种方法完成同样的事情,但是它与第一种有着细微但重要的区别。
- 5.3. 类的定义
Python 是完全面向对象的:你可以定义自已的类,从自已的或内置的类继承,然后从你定义的类创建实例。
- 5.4. 类的实例化
在 Python 中对类进行实例化很直接。为了对类进行实例化,只要调用类,好象它是一个函数,传入定义在 __init__ 方法中的参数。返回值将是新创建的对象。
- 5.5. 探索 UserDict: 一个封装类
如你所见, FileInfo 是一个象字典一样动作的类。为了进一步揭示这一点,让我们看一看在 UserDict 模块中的 UserDict 类,它是我们的 FileInfo 类的父类。它没有什么特别的,也是用 Python 写的,并且保存在一个 .py 文件里,就象我们其他的代码。特别之处在于,它保存在你的 Python 安装目录的 lib 目录下。
- 5.6. 专用类方法
除了普通的类方法,还有一些对于 Python 类可以定义的专用方法。专用方法是在特殊情况下或当使用特别语法时由 Python 替你调用的,而不是在代码中直接调用(象普通的方法那样)。
- 5.7. 高级专用类方法
除了 __getitem__ 和 __setitem__ 之外 Python 还有更多的专用函数。某些可以让你模拟出你甚至可能不知道的功能。
- 5.8. 类属性介绍
你已经知道了 数据属性,它们是被一个特定的类实例所拥有的变量。Python 也支持类属性,它们是由类本身所拥有的。
- 5.9. 私有函数
与大多数的语言不同,一个 Python 函数,方法,或属性是私有还是公有,完全取决于它的名字。
- 5.10. 小结
实打实的对象把戏到此为止。 你将在 第 12 章 中看到一个真实世界应用程序的专有类方法, 它使用 getattr 创建一个到远程 Web 服务的代理。
第 6 章 异常和文件处理
- 6.1. 异常处理
与许多面向对象语言一样,Python 具有异常处理,通过使用 try...except 块来实现。
- 6.2. 与文件对象共事
Python 有一个内置函数,open,用来打开在磁盘上的文件。open 返回一个文件对象,它拥有一些方法和属性,可以得到打开文件的信息,和对打开文件进行操作。
- 6.3. for 循环
与其它大多数语言一样,Python 也拥有 for 循环。你到现在还未曾看到它们的唯一原因就是,Python 在其它太多的方面表现出色,通常你不需要它们。
- 6.4. 使用 sys.modules
与其它任何 Python 的东西一样, 模块也是对象。 一旦导入,总可以用全局 dictionary sys.modules 来得到一个模块的引用。
- 6.5. 与 Directory 共事
os.path 模块有几个操作文件和目录的函数。 这里, 我们看看如何操作路径名和列出一个目录的内容。
- 6.6. 全部放在一起
再一次,所有的多米诺骨牌都放好了。我们已经看过每行代码是如何工作的了。现在往回走一步,看一下放在一起是怎么样的。
- 6.7. 小结
在 第 5 章 介绍的 fileinfo.py 程序现在应该完全理解了。
第 7 章 正则表达式
- 7.1. 概览
如果你要解决的问题利用字符串函数能够完成,你应该使用他们。他们快速、简单且容易阅读,而对于快速、简单、可读性强的代码等方面有很多内容。但是,如果你发现你用了许多不同的字符串函数和 if语句来处理一个特殊情况,或者你组合使用了 split 、join 等函数而导致用一种奇怪的甚至读不下去的方式理解列表,此时,你也许需要转到正则表达式了。
- 7.2. 个案研究:街道地址
这一系列的例子是由我几年前日常工作中的现实问题启发而来的,当时我需要从一个老化系统中导出街道地址,在将他们导入新的系统之前,进行清理和标准化。(看,我不是只将这些东西堆到一起,他有实际的用处)。这个例子展示我如何处理这个问题。
- 7.3. 个案研究:罗马字母
你可能经常看到罗马数字,即使你没有意识到他们。你可能曾经在老电影或者电视中看到他们(“版权所有 MCMXLVI” 而不是 “版权所有1946”),或者在某图书馆或某大学的贡献墙上看到他们(“成立于 MDCCCLXXXVIII”而不是“成立于1888”)。你也可能在某些文献的大纲或者目录上看到他们。这是一个表示数字的系统,他能够真正回溯到远古的罗马帝国(因此而得名)。
- 7.4. 使用{n,m} 语法
在 前面的章节,你处理了相同字符可以重复三次的情况,在正则表达式中有另外一个方式来表达这种情况,并且使代码的可读性更好。首先来看我们在前面的例子中使用的方法。
- 7.5. 松散正则表达式
迄今为止,你只是处理过被我称之为“紧凑”类型的正则表达式。正如你曾看到的,它们难以阅读,即使你清楚正则表达式的含义,你也不能保证六个月以后你还能理解它。你真正所需的就是利用内联文档(inline documentation)。
- 7.6. 个案研究: 解析电话号码
迄今为止,你主要是匹配整个模式,不论是匹配上,还是没有匹配上。但是正则表达式还有比这更为强大的功能。当一个模式确实匹配上时,你可以获取模式中特定的片断,你可以发现具体匹配的位置。
- 7.7. 小结
这只是正则表达式能够完成工作的很少一部分。换句话说,即使你现在备受打击,相信我,你也不是什么也没见过了。
第 8 章 HTML 处理
- 8.1. 概览
我经常在 comp.lang.python 上看到关于如下的问题: “ 怎么才能从我的 HTML 文档中列出所有的 [头|图像|链接] 呢?” “怎么才能 [分析|解释|munge] 我的 HTML 文档的文本,但是不要标记呢?” “怎么才能一次给我所有的 HTML 标记 [增加|删除|加引号] 属性呢?” 本章将回答所有这些问题。
- 8.2. sgmllib.py 介绍
HTML 处理分成三步: 将 HTML 分解成它的组成片段,对片段进行加工,接着将片段再重新合成 HTML。第一步是通过 sgmllib.py 来完成的,它是标准 Python 库的一部分。
- 8.3. 从 HTML 文档中提取数据
为了从 HTML 文档中提取数据,将 SGMLParser 类进行子类化,然后对想要捕捉的标记或实体定义方法。
- 8.4. BaseHTMLProcessor.py 介绍
SGMLParser 自身不会产生任何结果。它只是分析,分析,再分析,对于它找到的有趣的东西会调用相应的一个方法,但是这些方法什么都不做。SGMLParser 是一个 HTML 消费者 (consumer): 它接收 HTML,将其分解成小的、结构化的小块。正如您所看到的,在 前一节 中,您可以通过将 SGMLParser 子类化来定义一个类,它可以捕捉特别标记和生成有用东西,如一个网页中所有链接的一个列表。现在我们将沿着这条路更深一步。我们要定义一个可以捕捉 SGMLParser 所丢出来的所有东西的一个类,接着重建整个 HTML 文档。用技术术语来说,这个类将是一个 HTML 生产者 (producer)。
- 8.5. locals 和 globals
我们先偏离一下 HTML 处理的主题, 讨论一下 Python 如何处理变量。 Python 有两个内置的函数, locals 和 globals, 它们提供了基于 dictionary 的访问局部和全局变量的方式。
- 8.6. 基于 dictionary 的字符串格式化
有另外一种字符串格式化的形式,它使用 dictionary 而不是值的 tuple。
- 8.7. 给属性值加引号
在 comp.lang.python 上的一个常见问题是 “我有一些 HTML 文档,属性值没有用引号括起来,并且我想将它们全部括起来,我怎么才能实现它呢?” [4] (一般这种事情的出现是由于一个项目经理加入到一个大的项目中来,而他又抱着 HTML 是一种标记语言的教条,要求所有的页面必须能够通过 HTML 校验器的验证。而属性值没有被引号括起来是一种常见的对 HTML 规范的违反。) 不管什么原因,未括起来的属性值通过将 HTML 送进 BaseHTMLProcessor 可以容易地修复。
- 8.8. dialect.py 介绍
Dialectizer 是 BaseHTMLProcessor 的简单 (和拙劣) 的派生类。它通过一系列的替换对文本块进行了处理,但是它确保在 <pre>...</pre> 块之间的任何东西不被修改地通过。
- 8.9. 全部放在一起
到了该将迄今为止我们已经学过并用得不错的东西放在一起的时候了。我希望您专心些。
- 8.10. 小结
Python 向您提供了一个强大工具,sgmllib.py,可以通过将 HTML 结构转变为一种对象模型来进行处理。可以以许多不同的方式来使用这个工具。
第 9 章 XML 处理
- 9.1. 概览
处理 XML 有两种基本的方式。一种叫做 SAX(“Simple API for XML”),它的工作方式是,一次读出一点 XML 内容,然后对发现的每一个元素调用一个方法。(如果你读了 第 8 章 HTML 处理,这应该听起来很熟悉,因为这是 sgmllib 工作的方式。)另一种方式叫做 DOM (“Document Object Model”),它的工作方式是,一次性读入整个 XML 文档,然后使用 Python 类创建一个内部表示形式(以树结构进行连接)。Python 拥有这两种解析方式的标准模块,但是本章只涉及 DOM。
- 9.2. 包
实际上解析一个 XML 文档是很简单的:只要一行代码。但是,在你接触那行代码前,需要暂时岔开一下,讨论一下包。
- 9.3. XML 解析
正如我说的,实际解析一个 XML 文档是非常简单的:只要一行代码。从这里出发到哪儿去就是你自己的事了。
- 9.4. Unicode
Unicode 是一个系统,用来表示世界上所有不同语言的字符。当 Python 解析一个 XML 文档时,所有的数据都是以unicode的形式保存在内存中的。
- 9.5. 搜索元素
通过一步步访问每一个节点的方式遍历 XML 文档可能很乏味。如果你正在寻找些特别的东西,又恰恰它们深深埋入了你的 XML 文档,有个捷径让你可以快速找到它:getElementsByTagName 。
- 9.6. 访问元素属性
XML 元素可以有一个或者多个属性,一旦你已经解析了一个 XML 文档,访问它们就太简单了。
- 9.7. Segue
OK,that's it for the hard-core XML stuff. 下一章将继续使用相同的示例程序,但是焦点在于能使程序更加灵活的其它方面:使用输入流处理,使用 getattr 进行方法分发,并使用命令行标识允许用户重新配置程序而无需修改代码。
第 10 章 Scripts 和 Streams
- 10.1. 抽象输入源
Python 的最强大力量之一是它的动态绑定,并且动态绑定最强大的用法之一是类文件(file-like)对象。
- 10.2. 标准输入、输出和错误
UNIX 用户已经对标准输入,标准输出和标准错误的概念非常熟悉了。这一节是为其他不熟悉的人准备的。
- 10.3. 缓冲节点查询
kgp.py 使用了多种技巧,对你进行 XML 处理而言它们或许有用。第一个就是,使用输入文档的结构稳定特征来构建节点缓冲。
- 10.4. 查找节点的直接子节点
解析 XML 文档时,另一个有用的己技巧是查找某个特定元素的所有直接子元素。例如,在语法文件中,一个 ref 元素可以有数个 p 元素,其中每一个都可以包含很多东西,包括其他的 p 元素。你只要查找作为 ref 孩子的 p 元素,不用查找其他 p 元素的孩子 p 元素。
- 10.5. 通过节点类型创建独立的处理句柄 Creating separate handlers by node type
第三个有用的 XML 处理技巧是将你的代码基于节点类型和元素名称分散到逻辑函数中。解析后的 XML 文档是由各种类型的节点组成的,每一个都是通过 Python 对象表示的。文档本身的根层次通过一个Document对象表示。Document还包含了一个或者多个Element对象(for actual XML tags),其中的每一个可以包含其它的Element对象,Text对象(for bits of text),或者Comment对象(for embedded comments)。 Python 使编写分离每个节点类型逻辑的分发器非常容易。
- 10.6. 处理命令行参数
Python 完备支持创建在命令行运行的程序,并且连同命令行参数和短长样式来指定各种选项。这些并非是 XML 特定的,但是这样的脚本可以充分使用命令行处理,看来是时候提一下它了。
- 10.7. 全部放在一起
你已经了解很多基础的东西。让我们回来看看所有片段是如何整合到一起的。
- 10.8. 小结
Python 带有解析和操作 XML 文档非常强大的库。这个 minidom 接收一个 XML 文件并将其解析为 Python 对象,提供了对任意元素的随即访问。进一步,本章展示了如何利用 Python 创建一个“真实”独立的命令行脚本,连同命令行标志,命令行参数,错误处理,甚至从前一个程序的管道接收输入的能力。
第 11 章 HTTP Web 服务
- 11.1. 概览
在讲解 如何下载 web 页 和 如何从 URL 解析 XML时, 你已经学习了关于 HTML 处理 和 XML 处理, 接下来让我们来更全面地探讨有关 HTTP web 服务的主题。
- 11.2. 避免通过 HTTP 重复地获取数据
假如说你想用 HTTP 下载资源, 例如一个 Atom feed 汇聚。你不仅仅想下载一次; 而是想一次又一次地下载它, 如每小时一次, 从提供 news feed 的站点获得最新的消息。让我们首先用一种直接而原始的方法来实现它, 然后看看如何改进它。
- 11.3. HTTP 的特性
这里有五个你必须关注的 HTTP 重要特性。
- 11.4. 调试 HTTP web 服务
首先, 让我们开启 Python HTTP 库的调试特性并查看网络线路上的传输过程。 这对本章的全部内容都很有用, 因为你将添加越来越多的特性。
- 11.5. 设置 User-Agent
改善你的 HTTP web 服务客户的第一步就是用 User-Agent 适当地鉴别你自己。为了做到这一点, 你需要远离基本的 urllib 而深入到 urllib2。
- 11.6. 处理 Last-Modified 和 ETag
既然你知道如何在你的 web 服务请求中添加自定义的 HTTP 头信息, 接下来看看添加 Last-Modified 和 ETag 头信息的支持。
- 11.7. 处理重定向
你可以使用两种不同的自定义 URL 头信息来处理永久重定向和临时重定向。
- 11.8. 处理被压缩的数据
你要支持的最后一个重要的 HTTP 特性是压缩。 许多 web 服务具有发送压缩数据的能力, 这可以将网络线路上传输的大量数据消减 60% 以上。 尤其适用于 XML web 服务, 因为 XML 数据 的压缩率可以很高。
- 11.9. 全部放在一起
你已经看到了构造一个职能的 HTTP web 客户的所有片断。 现在让我们看看如何将它们整合到一起。
- 11.10. 小结
openanything.py 及其函数现在可以完美地工作了。
第 12 章 SOAP Web 服务
- 12.1. 概览
你用 Google, 对吧? 它是一个很流行的搜索引擎。 你是否曾经希望能以程序化的方式访问 Google 的搜索结果呢? 现在你能做到了。 下面是一个用 Python 搜索 Google 的程序。
- 12.2. 安装 SOAP 库
与本书中的其他代码不同, 本章依赖的库不是 Python 预安装的。
- 12.3. 步入 SOAP
调用远程函数是 SOAP 的核心功能。有很多提供公开 SOAP 访问的服务器提供用于展示的简单功能。
- 12.4. SOAP 网络服务查错
SOAP 提供了一个很方便的方法用以查看背后的情形。
- 12.5. WSDL 介绍
SOAPProxy 类本地方法调用并透明地转向到远程 SOAP 方法。 正如你所看到的,这是很多的工作,SOAPProxy 快速和透明地完成他们。它没有做到的是提供任何方法自省的手段。
- 12.6. 以 WSDL 进行 SOAP 内省
就像网络服务舞台上的所有事物, WSDL 也经历了一个充满明争暗斗而且漫长多变的历史。 我不打算讲述这段令我伤心的历史。 还有一些其他的标准提供相同的支持,但 WSDL 还是胜出,所以我们还是来学习一下如何使用它。
- 12.7. 搜索 Google
让我们回到这章开始时你看到的那段代码,获得比当前气温更有价值和令人振奋的信息。
- 12.8. SOAP 网络服务故障排除
是的,SOAP 网络服务的世界中也不总是欢乐和阳光。 有时候也会有故障。
- 12.9. 小结
SOAP 网络服务是很复杂的,雄心勃勃的它试图涵盖网络服务的很多不同应用。这一章我们接触了它的一个简单应用。
第 13 章 单元测试
- 13.1. 罗马数字程序介绍 II
在前面的章节中,你迅速“深入”并试图以最快的速度理解了这个程序。 " 既然你已对 Python 有了一定的了解,那么接下来将回顾这个程序并从其代码被开发之前入手。
- 13.2. 深入
现在你已经定义了你的转换程序所应有的功能,下面一步会有点儿出乎你的意料:你将要开发一个测试组件(test suite)来测试你未来的函数以确保它们工作正常。没错:你将为还未开发的程序开发测试代码。
- 13.3. 介绍 romantest.py
这是将被开发并保存为 roman.py 的罗马数字转换程序的完整测试组件(test suite)。很难立刻看出他们是如何协同工作的,似乎所有类或者方法之间都没有关系。这是有原因的,而且你很快就会明了。
- 13.4. 正面测试(Testing for success)
单元测试的基础是构建独立的测试用例(test case)。 一个测试用例只回答一个关于被测试代码的问题。
- 13.5. 负面测试(Testing for failure)
使用有效输入确保函数成功通过测试还不够,你还需要测试无效输入导致函数失败的情形。但并不是任何失败都可以,必须如你预期地失败。
- 13.6. 完备性检测(Testing for sanity)
你经常会发现一组代码中包含互逆函数,它们通常是转换函数,一个把 A 转换为 B ,另一个把 B 转换为 A。 在这种情况下,创建“完备性检测”可以使你在由 A 转 B 再转 A 的过程中不会出现丢失精度和取整等错误。
第 14 章 以测试优先为原则的编程
- 14.1. roman.py, 第 1 阶段
到目前为止,单元测试已经完成,是时候开始编写被单元测试测试的代码的时候了。你将分阶段地完成这个工作,因此开始时所有的单元测试都是失败的,但在逐步完成 roman.py 的同时你会看到它们一个个地通过(测试) 。
- 14.2. roman.py, 第 2 阶段
现在你有了 roman 模块的大概框架, 到了开始写代码以通过测试的时候了。
- 14.3. roman.py, 第 3 阶段
现在 toRoman 对于有效的输入(1 到 3999 整数)已能正确工作,是正确处理那些无效输入(任何其他输入)的时候了。
- 14.4. roman.py, 第 4 阶段
现在 toRoman 完成了,是开始编写 fromRoman 的时候了。感谢那个将每个罗马数字和对应整数关连的完美数据结构,这个工作不比 toRoman 函数复杂。
- 14.5. roman.py, 第 5 阶段
现在 fromRoman 对于有效输入能够正常工作了,是揭开最后一个谜底的时候了:使它正常工作于无效输入的情况下。这意味着要找出一个方法检查一个字符串是不是有效的罗马数字。这比 toRoman 中验证有效的数字输入 困难, 但是你可以使用一个强大的工具:正则表达式。
第 15 章 重构
- 15.1. 处理 bugs
尽管你很努力地编写全面的单元测试,但是 bug 还是会出现。 我所说的 “bug” 是什么呢? Bug 是你还没有编写的测试用例。
- 15.2. 应对需求变化
尽管你竭尽努力地分析你的客户,并点灯熬油地提炼出精确的需求,但需求还是会是不断变化。 大部分客户在看到产品前不知道他们想要什么。即便知道,也不擅于精确表述出他们的有效需求。即便能表述出来,他们在下一个版本一定会要求更多的功能。 因此你需要做好更新测试用例的准备以应对需求的改变。
- 15.3. 重构
全面的单元测试带来的最大好处不是你的全部测试用例最终通过时的成就感;也不是被责怪破坏了别人的代码时能够证明自己的自信。最大的好处是单元测试给了你自由去无情地重构。
- 15.4. 后记
聪明的读者在学习 前一节 时想得会更深入一层。 现在写的这个程序中最令人头痛(性能负担)的是正则表达式,它是必需的,因为没有其它方法来处理罗马数字。但是,它们只有 5000 个,为什么不一次性地构建一个查询表来读取? 不必用正则表达式凸现了这个主意的好处。 你建立了整数到罗马数字查询表的时候,罗马数字到整数的逆向查询表也构建了。
- 15.5. 小结
单元测试是一个强大的概念,使用得当的话既可以减少维护成本又可以增加长期项目的灵活性。 同样重要的是要意识到单元测试并不是“灵丹妙药”,也不是“银弹”。 编写好的测试用例很困难,保持其更新更需要磨练(特别是当顾客对修复严重的 Bug 大呼小叫之时)。 单元测试不是其它形式测试的替代品,比如说功能性测试、集成测试以及可用性测试。但它切实可行且功效明显,一旦相识,你会反问为什么以往没有应用它。
第 16 章 有效编程(Functional Programming)
- 16.1. 概览
在 第 13 章 单元测试 中,你学会了单元测试的哲学。在 第 14 章 以测试优先为原则的编程 中你步入了 Python 基本的单元测试操作,在 第 15 章 重构 部分,你看到单元测试如何另大规模重组变得容易。 本章将在这些程序范例的基础上,集中关注于超越单元测试本身的更高级的 Python 特有技术。
- 16.2. 找到路径
从命令行运行 Python 代码时,知道所运行代码所在磁盘上的存储位置有时候是有必要的。
- 16.3. 过滤已访问列表
你已经熟识了 应用列表遍历来过滤列表。 这里介绍的是达到相同效果的另一种令很多人感觉清晰的实现方法。
- 16.4. 关联已访问列表
你对使用 列表遍历 将列表关联起来的做法已经熟知。 另一种方法可以完成同样的工作:使用内建 map 函数。 它的工作机理和 filter 函数类似。
- 16.5. 数据中心思想编程
现在的你,可能正抓耳挠腮地狠想,为什么这样比使用 for 循环和直接调用函数好。这是一个非常好的问题。通常这是一个程序观问题。 使用 map 和 filter 强迫你围绕数据进行思考。
- 16.6. 动态导入模块
好了,大道理谈够了。让我们谈谈动态倒入数据吧。
- 16.7. 全部放在一起
你已经学习了足够的知识,现在来分析本章范例代码的前七行:读取一个目录并从中导入选定的模块。
- 16.8. 小结
regression.py 程序及其输出到现在应该很清楚了。
第 17 章 动态函数
- 17.1. 概览
我想谈谈名词复数。 还有,返回其它函数的函数,高级的正则表达式和生成器(Generator)。生成器是 Python 2.3 新引入的。 但首先还是让我们先来谈谈如何生成名词复数。
- 17.2. plural.py, 第 1 阶段
你所针对的单词,至少在英语中是字符串和字符。 另外你需要规则来找出不同的字符(字母)组合,并对他们进行不同的操作。这听起来像是正则表达式的工作。
- 17.3. plural.py, 第 2 阶段
现在你将增加一个抽象过程。 你从定义一个规则列表开始:如果这样,就做那个,否则判断下一规则。 让我们暂时将程序一部分复杂化以便使另一部分简单化。
- 17.4. plural.py, 第 3 阶段
将每个匹配和规则应用分别制作成函数没有必要。 你从来不会直接调用它们:你把它们定义于 rules 列表之中并从那里调用它们。 让我们隐去他们的函数名而抓住规则定义的主线。
- 17.5. plural.py, 第 4 阶段
让我们精炼出代码中的重复之处,以便更容易地定义新规则。
- 17.6. plural.py, 第 5 阶段
你已经精炼了所有重复代码,也尽可能地把复数规则提炼到定义一个字符串列表。 接下来的步骤是把这些字符串提出来放在另外的文件中,从而可以和使用它们的代码分开来维护。
- 17.7. plural.py, 第 6 阶段
现在你已准备好探讨生成器(Generator )了。
- 17.8. 小结
这一章中我们探讨了几个不同的高级技术。他们并不都适用于任何情况。
第 18 章 性能优化
- 18.1. 概览
由于代码优化过程中存在太多的不明确因素,以至于你很难清楚该从何入手。
- 18.2. 使用 timeit 模块
关于 Python 代码优化你需要知道的最重要问题是,决不要自己编写计时函数。
- 18.3. 优化正则表达式
Soundex 函数的第一件事是检查输入是否是一个空字符串。 怎样做是最好的方法?
- 18.4. 优化字典查找
Soundex 算法的第二步是依照特定规则将字符转换为数字。 做到这点最好的方法是什么?
- 18.5. 优化列表操作
Soundex 算法的第三步是去除连续重复字符。 怎样做是最佳方法?
- 18.6. 优化字符串操作
Soundex 算法的最后一步是对短结果补零和截短长结果。最佳的做法是什么?
- 18.7. 小结
这一章展示了性能优化的几个重要方面,这里是就 Python 而言,但它们却普遍使用。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论