Python的lxml模块,无法用dtd验证xml文件是为什么?

发布于 2022-09-02 10:25:35 字数 2501 浏览 18 评论 0

我现在想要解析一个xml文件,然后把里面的内容读取出来再转成csv文件。于是我决定用lxml模块,然而在使用的过程中,代码老是报错说有属性没有定义,可是在都DTD文件里头已经很明显的定义了,而且我也确认了dtd文件确实有导入。 我不知道这到底是什么原因,即使是把dtd文件放进测试的xml文件里头也不行。
不知道有没有人可以给我一些解决的思路,谢谢各位。

以下是相关的测试代码:

context = etree.iterparse(f, dtd_validation=True, load_dtd=True, events=("start", "end"), resolve_entities=True)
testtext = etree.XMLParser(dtd_validation=True, load_dtd=True, resolve_entities=True)

context = iter(context)
event, root = next(context)

current_tag = None
for event, elem in context:
    print elem.tag
    

运行以上代码以后就会报出以下:

lxml.etree.XMLSyntaxError: No declaration for attribute mdate of element www, line 5, column 15

可是DTD文件已经明确定义了‘www’的属性‘mdate’:

<!ELEMENT dblp (article|inproceedings|proceedings|book|incollection|phdthesis|mastersthesis|www)*>
<!ENTITY % field "author|editor|title|booktitle|pages|year|address|journal|volume|number|month|url|ee|cdrom|cite|publisher|note|crossref|isbn|series|school|chapter">
<!ELEMENT article       (%field;)*>
<!ATTLIST article
                        key CDATA #REQUIRED
                        mdate CDATA #IMPLIED
                        publtype CDATA #IMPLIED
                        reviewid CDATA #IMPLIED
                        rating CDATA #IMPLIED
>
<!ELEMENT www           (%field;)*>
<!ATTLIST www           key CDATA #REQUIRED
                        mdate CDATA #IMPLIED
                        publtype CDATA #IMPLIED
>
        

所以我不知道为什么他还是会报错说没有定义这个属性。
接下来是相关的xml测试代码:

<?xml version="1.0" encoding="ISO-8859-1"?>
<!DOCTYPE dblp SYSTEM "dblp.dtd">
<dblp>
<www mdate="2005-10-06" key="persons/Ley93">
<author>Michael Ley</author>
<title>DBLP.uni-trier.de: Computer Science Bibliography</title>
<url>http://dblp.uni-trier.de/</url>
<year>1993</year>
</www>
<article mdate="2002-01-03" key="persons/CoddD74">
<author>E. F. Codd</author>
<author>C. J. Date</author>
<title>Interactive Support for Non-Programmers: The Relational and Network Approaches.</title>
<journal>IBM Research Report, San Jose, California</journal>
<volume>RJ1400</volume>
<month>June</month>
<year>1974</year>
</article>
</dblp>

所以基本上我整个人是处于懵逼状态的。不知道各位能不能告诉我一下到底是什么原因导致这个问题,然后可以怎么解决。 谢谢各位大大了。。。_(:зゝ∠)_

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文