从 XML DTD 生成 lex 匹配规则和 yacc 语法规则

发布于 2024-12-23 03:54:25 字数 1186 浏览 4 评论 0原文

概述

虽然这个问题涉及用 C 编写的 lex/yacc，但它基本上以 python 编程为中心。

我有几个非常相似的 DTD，用于解析文档。程序的该部分是用 C 编写的，并且不需要调用完整的 SAX 处理程序（即、libxml2）用于此目的。由于 DTD（以及 XML 文件）具有静态格式，我认为这个问题最好用 lex 和 yacc 来解决。

虽然为任何 XML 文档编写完整的词法解析器都过于复杂，但为 XML 文档的特定子集编写完整的词法解析器是完全可以管理的。 DTD 可用于生成词法分析器（对输入进行标记）以及 YACC 中的解析器生成器。

我愿意做两个假设：

XML 文档相对于 REC-xml-19980210
XML 文档相对于其 DTD 是有效的。

因此，如果 XML 文档未能满足上述任何条件，则词法分析器/解析器对于该特定文件应该会失败。

问题

我的最终目标是编写一个能够成功执行以下操作的 python 脚本：(1) 解析 DTD；和（2）生成 lex/yacc 文件。在开始之前，我有几个问题：

这个问题已经解决了吗？
- 如果是这样，我应该考虑查看哪些库吗？
- 如果没有，是否是因为使用我提到的工具没有解决方案？
是否有比使用静态解析器更好的（按性能衡量）方法从 XML 文件中提取非标记“内容”？

我意识到我可以使用 PLY 来解析 DTD，但是因为我对生成 lex 感兴趣/yacc 文件包含在 C 程序中，该选项将不起作用。因此，我想我可能会使用 xml.parsers.expat 来解析DTD。这允许我注册跟踪元素名称、它们在树中的位置、是否需要它们等的回调。这应该为我提供足够的信息来生成 lex/yacc 文件，但我想看看你们有什么建议。

原文