忽略 XML 标记之间的文本

发布于 2024-11-02 04:41:15 字数 544 浏览 0 评论 0原文

""" test.xml

<xyz>
      <pqr>
        <abc><a href="data:text/html;charset=utf-8,base64,JTNjc2NyaXB0JTNlYWxlcnQoIlhTUyIpO2hpc3RvcnkuYmFjaygpOyUzYy9zY3JpcHQlM2UiPjwvYT4=</abc>
      </pqr>
      <pqr>
        <abc><iframe src="data:text/html;charset=utf-8,base64,JTNjc2NyaXB0JTNlYWxlcnQoIlhTUyIpO2hpc3RvcnkuYmFjaygpOyUzYy9zY3JpcHQlM2UiPjwv</abc>
      </pqr>
<xyz>

""""

当我使用这个 XML 文件并在 python 中解析时,它会显示错误(格式不正确)。我如何解析这个 xml 文件或任何其他方法来从此文件获取数据。

""" test.xml

<xyz>
      <pqr>
        <abc><a href="data:text/html;charset=utf-8,base64,JTNjc2NyaXB0JTNlYWxlcnQoIlhTUyIpO2hpc3RvcnkuYmFjaygpOyUzYy9zY3JpcHQlM2UiPjwvYT4=</abc>
      </pqr>
      <pqr>
        <abc><iframe src="data:text/html;charset=utf-8,base64,JTNjc2NyaXB0JTNlYWxlcnQoIlhTUyIpO2hpc3RvcnkuYmFjaygpOyUzYy9zY3JpcHQlM2UiPjwv</abc>
      </pqr>
<xyz>

""""

when i use this XML file and parse in python then it shows error(not well formed) . How can i parse this xml file or any other method to get the data from this file.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

善良天后 2024-11-09 04:41:15

您可以先更改 xml 并使用 cdata 包含格式不正确的 xml

示例:

<xyz>
      <pqr>
        <abc><![CDATA[<a href="data:text/html;charset=utf-8,base64,JTNjc2NyaXB0JTNlYWxlcnQoIlhTUyIpO2hpc3RvcnkuYmFjaygpOyUzYy9zY3JpcHQlM2UiPjwvYT4=]]></abc>
      </pqr>
      <pqr>
        <abc><![CDATA[<iframe src="data:text/html;charset=utf-8,base64,JTNjc2NyaXB0JTNlYWxlcnQoIlhTUyIpO2hpc3RvcnkuYmFjaygpOyUzYy9zY3JpcHQlM2UiPjwv]]></abc>
      </pqr>
<xyz>

请参阅: http:// www.w3schools.com/xml/xml_cdata.asp

之后你就可以使用 python xml 解析器

You can change the xml first and use cdata to enclose not well formatted xml

example:

<xyz>
      <pqr>
        <abc><![CDATA[<a href="data:text/html;charset=utf-8,base64,JTNjc2NyaXB0JTNlYWxlcnQoIlhTUyIpO2hpc3RvcnkuYmFjaygpOyUzYy9zY3JpcHQlM2UiPjwvYT4=]]></abc>
      </pqr>
      <pqr>
        <abc><![CDATA[<iframe src="data:text/html;charset=utf-8,base64,JTNjc2NyaXB0JTNlYWxlcnQoIlhTUyIpO2hpc3RvcnkuYmFjaygpOyUzYy9zY3JpcHQlM2UiPjwv]]></abc>
      </pqr>
<xyz>

see: http://www.w3schools.com/xml/xml_cdata.asp

After this you can just use python xml parser

画▽骨i 2024-11-09 04:41:15

标记不平衡(有两个开始标记),并且 test.xml 行是虚假的。您的 标记未关闭,并且其 href 属性未加引号。与您的 iframe 标记相同。您正在使用的解析器应该告诉您在哪里遇到了错误。修复它然后你就可以开始了。

如果你想解析xml,首先你必须确保它是格式良好的 XML。通常,可以进行一些修改,使原本无法解析的代码片段形成良好的格式,以便您可以使用标准解析器。

The <xyz> tag is not balanced (there are two opening tags) and the test.xml line is spurious. Your <a> tag is not closed and it's href attribute is not quoted. Same with your iframe tag. The parser you're using should tell you where it encountered the error. Fix it and then you'll be good to go.

If you want to parse xml, first you must ensure that it is well formed XML. Often, it's possible to do a little massaging to make an otherwise unparseable snippet something well formed so that you can use a standard parser.

逆光飞翔i 2024-11-09 04:41:15

快速目视检查您的 XML 片段,我突然发现两件事:您的 XML 格式不正确:

A quick visual inspection of your XML fragment, and two things jumped out at me re: your XML not being well formed:

  • Your closing <xyz> element is missing it's slash: it should be </xyz>
  • Your <a> and <iframe> elements are also not closed.
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文