返回介绍

XML解析工具

发布于 2024-01-29 22:24:14 字数 2519 浏览 0 评论 0 收藏 0

XML是一种基于标签的语言,用于定义结构化的信息,通常用来定义通过Web传输的文档和数据。尽管可以使用基本的字符串方法或re模式模块从XML文本提取一些信息,但XML的嵌套式的结构和任意的属性文本使得全面解析更为精确。

由于XML是如此广泛使用的格式,Python自身附带一个完整的XML解析工具包,所以它支持SAX和DOM解析模式,此外,还有一个名为ElementTree的包——这是特定于Python的专用于解析和构造XML的一个API。除了基本的解析,开源领域还提供了额外的XML工具,例如XPath、Xquery、XSLT,等等。

XML根据定义以Unicode形式表示文本,以支持国际化。尽管大多数Python的XML解析工具总是返回Unicode字符串,但在Python 3.0中,它们的结果必须从Python 2.X的unicode类型转变为Python 3.0通用的str字符串类型——这是有意义的,因为Python 3.0的str字符串是Unicode,不管编码是ASCII或是其他的。

我们无法在这里介绍更多细节,但是,示例对于了解这方面内容有帮助,假设我们有一个简单的XML文本文件mybooks.xml:

并且我们想要运行一个脚本来提取并显示所有嵌套的title标记的内容,如下所示:

至少有4种基本的方法来做到这点(不包括像XPath这样更高级的工具)。首先,我们可以在文件的文本上运行基本的模式匹配,尽管如果文本不可预期的话,这种方法可能不精确。采用这种方法的时候,我们前面介绍的r e模块可以完成这项工作,它的match方法从字符串开始查找一个匹配,search方法向前查找一个匹配,这里使用的findall方法找出字符串中和模式匹配的所有地方(返回的结果是,和括号括起来的模式组或多个这样的组的元组对应的匹配子字符串的列表):

其次,为了更加稳健,我们可以用标准库的DOM解析支持来执行完整的XML解析。DOM把XML文本解析为一个对象树,并且提供一个接口在树中导航并提取标签属性和值;这个接口是一个正式规范,独立于Python:

作为第三种方式,Python的标准库支持SAX解析XML。在SAX模式下,类的方法接收回调作为一个解析过程,并且使用状态信息来记录它们在文档中的位置并收集其数据:

最后,可以使用标准库的etree包中的ElementTree系统,它往往用来实现和XML DOM解析器相同的效果,但是,代码更少。这是一种特定于Python的方式,既解析XML文本也可以生成XML文本。在解析之后,其API可以访问文档的组件:

在Python 2.6或Python 3.0中运行的时候,所有这4段脚本都显示相同的结果:

然而,从技术上,在Python 2.6中,这些脚本中的某些产生unicode字符串对象,而在Python 3.0中都产生str字符串,因为该类型包含了Unicode文本(不管是ASCII或其他):

必须处理XML解析的程序,导致了需要针对Python 3.0中的不同对象类型考虑不一般的方式。再次,尽管所有的字符串在Python 2.6和Python 3.0中都有几乎相同的接口,但大多数脚本不会受到这样修改的影响。可用于Python 2.6的unicode工具,通常也可用于Python 3.0中的str。

遗憾的是,继续深入讨论XML的细节超越了本书的范围。如果你对于文本或XML解析感兴趣,在后续基于应用程序的图书Programming Python中介绍了其更多细节。要了解关于re、struct、pickle和XML工具的更多知识,可在Web上搜索,阅读前面提到的书籍或其他书籍,或参阅Python的标准库手册。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文