- 译者序
- 前言
- 第1章 问答环节
- 第2章 Python 如何运行程序
- 第3章 如何运行程序
- 第4章 介绍 Python 对象类型
- 第5章 数字
- 第6章 动态类型简介
- 第7章 字符串
- 第8章 列表与字典
- 第9章 元组、文件及其他
- 第10章 Python 语句简介
- 第11章 赋值、表达式和打印
- 第12章 if 测试和语法规则
- 第13章 while 和 for 循环
- 第14章 迭代器和解析,第一部分
- 第15章 文档
- 第16章 函数基础
- 第17章 作用域
- 第18章 参数
- 第19章 函数的高级话题
- 第20章 迭代和解析,第二部分
- 第21章 模块:宏伟蓝图
- 第22章 模块代码编写基础
- 第23章 模块包
- 第24章 高级模块话题
- 第25章 OOP:宏伟蓝图
- 第27章 更多实例
- 第28章 类代码编写细节
- 第29章 运算符重载
- 第30章 类的设计
- 第31章 类的高级主题
- 第32章 异常基础
- 第34章 异常对象
- 第35章 异常的设计
- 第36章 Unicode 和字节字符串
- 字符串基础知识
- Python 的字符串类型
- 文本和二进制文件
- Python 3.0 中的字符串应用
- 转换
- 编码 Unicode 字符串
- 编码非ASCII文本
- 编码和解码非ASCII文本
- 其他 Unicode 编码技术
- 转换编码
- 在 Python 2.6 中编码 Unicode 字符串
- 源文件字符集编码声明
- 使用 Python 3.0 Bytes 对象
- 序列操作
- 创建 bytes 对象的其他方式
- 混合字符串类型
- 使用 Python 3.0(和 Python 2.6)bytearray 对象
- 使用文本文件和二进制文件
- Python 3.0 中的文本和二进制模式
- 类型和内容错误匹配
- 使用 Unicode 文件
- 在 Python 3.0 中处理 BOM
- Python 2.6 中的 Unicode 文件
- Python 3.0 中其他字符串工具的变化
- Struct二进制数据模块
- pickle对象序列化模块
- XML解析工具
- 本章小结
- 本章习题
- 习题解答
- 第37章 管理属性
- 第38章 装饰器
- 第39章 元类
- 附录A 安装和配置
- 附录B 各部分练习题的解答
- 作者介绍
- 封面介绍
XML解析工具
由于XML是如此广泛使用的格式,Python自身附带一个完整的XML解析工具包,所以它支持SAX和DOM解析模式,此外,还有一个名为ElementTree的包——这是特定于Python的专用于解析和构造XML的一个API。除了基本的解析,开源领域还提供了额外的XML工具,例如XPath、Xquery、XSLT,等等。
XML根据定义以Unicode形式表示文本,以支持国际化。尽管大多数Python的XML解析工具总是返回Unicode字符串,但在Python 3.0中,它们的结果必须从Python 2.X的unicode类型转变为Python 3.0通用的str字符串类型——这是有意义的,因为Python 3.0的str字符串是Unicode,不管编码是ASCII或是其他的。
我们无法在这里介绍更多细节,但是,示例对于了解这方面内容有帮助,假设我们有一个简单的XML文本文件mybooks.xml:
并且我们想要运行一个脚本来提取并显示所有嵌套的title标记的内容,如下所示:
至少有4种基本的方法来做到这点(不包括像XPath这样更高级的工具)。首先,我们可以在文件的文本上运行基本的模式匹配,尽管如果文本不可预期的话,这种方法可能不精确。采用这种方法的时候,我们前面介绍的r e模块可以完成这项工作,它的match方法从字符串开始查找一个匹配,search方法向前查找一个匹配,这里使用的findall方法找出字符串中和模式匹配的所有地方(返回的结果是,和括号括起来的模式组或多个这样的组的元组对应的匹配子字符串的列表):
其次,为了更加稳健,我们可以用标准库的DOM解析支持来执行完整的XML解析。DOM把XML文本解析为一个对象树,并且提供一个接口在树中导航并提取标签属性和值;这个接口是一个正式规范,独立于Python:
作为第三种方式,Python的标准库支持SAX解析XML。在SAX模式下,类的方法接收回调作为一个解析过程,并且使用状态信息来记录它们在文档中的位置并收集其数据:
最后,可以使用标准库的etree包中的ElementTree系统,它往往用来实现和XML DOM解析器相同的效果,但是,代码更少。这是一种特定于Python的方式,既解析XML文本也可以生成XML文本。在解析之后,其API可以访问文档的组件:
在Python 2.6或Python 3.0中运行的时候,所有这4段脚本都显示相同的结果:
然而,从技术上,在Python 2.6中,这些脚本中的某些产生unicode字符串对象,而在Python 3.0中都产生str字符串,因为该类型包含了Unicode文本(不管是ASCII或其他):
必须处理XML解析的程序,导致了需要针对Python 3.0中的不同对象类型考虑不一般的方式。再次,尽管所有的字符串在Python 2.6和Python 3.0中都有几乎相同的接口,但大多数脚本不会受到这样修改的影响。可用于Python 2.6的unicode工具,通常也可用于Python 3.0中的str。
遗憾的是,继续深入讨论XML的细节超越了本书的范围。如果你对于文本或XML解析感兴趣,在后续基于应用程序的图书Programming Python中介绍了其更多细节。要了解关于re、struct、pickle和XML工具的更多知识,可在Web上搜索,阅读前面提到的书籍或其他书籍,或参阅Python的标准库手册。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论