在 python 中使用 &lt 和 &gt 字符解析 XML ElementTree

发布于 2025-01-13 04:42:06 字数 1282 浏览 1 评论 0原文

我正在使用公共 API,从 API 得到的响应是

<string xmlns="http://ws.sdde.bccr.fi.cr">&lt;Datos_de_INGC011_CAT_INDICADORECONOMIC&gt;
  &lt;INGC011_CAT_INDICADORECONOMIC&gt;
    &lt;COD_INDICADORINTERNO&gt;3148&lt;/COD_INDICADORINTERNO&gt;
    &lt;DES_FECHA&gt;2016-01-01T00:00:00-06:00&lt;/DES_FECHA&gt;
    &lt;NUM_VALOR&gt;533.00000000&lt;/NUM_VALOR&gt;
  &lt;/INGC011_CAT_INDICADORECONOMIC&gt;
  &lt;INGC011_CAT_INDICADORECONOMIC&gt;
    &lt;COD_INDICADORINTERNO&gt;3148&lt;/COD_INDICADORINTERNO&gt;
    &lt;DES_FECHA&gt;2016-01-02T00:00:00-06:00&lt;/DES_FECHA&gt;
    &lt;NUM_VALOR&gt;533.00000000&lt;/NUM_VALOR&gt;
  &lt;/INGC011_CAT_INDICADORECONOMIC&gt;
&lt;/Datos_de_INGC011_CAT_INDICADORECONOMIC&gt;</string>

我正在尝试使用 ElementTree 解析该 XML,但它不起作用,我的假设是它不起作用,因为 &lt&gt 位于响应中,而不是 <> 但即使在替换 xml 解析器之后仍然不起作用

有什么想法吗?

我使用的代码:

response = requests.get(url)
cleaned_data = response.text.replace('&lt;','<')
cleaned_data = cleaned_data.replace('&gt;','>')
tree = ET.fromstring(cleaned_data)
print(tree)

I am using a public API and the response im getting from the API is

<string xmlns="http://ws.sdde.bccr.fi.cr"><Datos_de_INGC011_CAT_INDICADORECONOMIC>
  <INGC011_CAT_INDICADORECONOMIC>
    <COD_INDICADORINTERNO>3148</COD_INDICADORINTERNO>
    <DES_FECHA>2016-01-01T00:00:00-06:00</DES_FECHA>
    <NUM_VALOR>533.00000000</NUM_VALOR>
  </INGC011_CAT_INDICADORECONOMIC>
  <INGC011_CAT_INDICADORECONOMIC>
    <COD_INDICADORINTERNO>3148</COD_INDICADORINTERNO>
    <DES_FECHA>2016-01-02T00:00:00-06:00</DES_FECHA>
    <NUM_VALOR>533.00000000</NUM_VALOR>
  </INGC011_CAT_INDICADORECONOMIC>
</Datos_de_INGC011_CAT_INDICADORECONOMIC></string>

I am trying to parse that XML using ElementTree but it is not working, my assumption is that its not working beacuse of the < and > that are in the response instead of <> but even after replacing the xml parser still doesnt work

Any ideas?

The code im using:

response = requests.get(url)
cleaned_data = response.text.replace('<','<')
cleaned_data = cleaned_data.replace('>','>')
tree = ET.fromstring(cleaned_data)
print(tree)

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

甜`诱少女 2025-01-20 04:42:06

我找不到报告的错误,使用lib lxml或xml(内置)与python3.9。

import lxml.etree as ET
from pprint import pprint


xml_str = """
<string xmlns="http://ws.sdde.bccr.fi.cr"><Datos_de_INGC011_CAT_INDICADORECONOMIC>
  <INGC011_CAT_INDICADORECONOMIC>
    <COD_INDICADORINTERNO>3148</COD_INDICADORINTERNO>
    <DES_FECHA>2016-01-01T00:00:00-06:00</DES_FECHA>
    <NUM_VALOR>533.00000000</NUM_VALOR>
  </INGC011_CAT_INDICADORECONOMIC>
  <INGC011_CAT_INDICADORECONOMIC>
    <COD_INDICADORINTERNO>3148</COD_INDICADORINTERNO>
    <DES_FECHA>2016-01-02T00:00:00-06:00</DES_FECHA>
    <NUM_VALOR>533.00000000</NUM_VALOR>
  </INGC011_CAT_INDICADORECONOMIC>
</Datos_de_INGC011_CAT_INDICADORECONOMIC></string>
"""

cleaned_data = xml_str.replace("<", "<")
cleaned_data = cleaned_data.replace(">", ">").strip()
print("cleaned_data")
pprint(cleaned_data)

tree = ET.fromstring(cleaned_data)
print("\ntree")
print(tree)
pprint(ET.tostring(tree).decode())

输出:

cleaned_data
('<string '
 'xmlns="http://ws.sdde.bccr.fi.cr"><Datos_de_INGC011_CAT_INDICADORECONOMIC>\n'
 '  <INGC011_CAT_INDICADORECONOMIC>\n'
 '    <COD_INDICADORINTERNO>3148</COD_INDICADORINTERNO>\n'
 '    <DES_FECHA>2016-01-01T00:00:00-06:00</DES_FECHA>\n'
 '    <NUM_VALOR>533.00000000</NUM_VALOR>\n'
 '  </INGC011_CAT_INDICADORECONOMIC>\n'
 '  <INGC011_CAT_INDICADORECONOMIC>\n'
 '    <COD_INDICADORINTERNO>3148</COD_INDICADORINTERNO>\n'
 '    <DES_FECHA>2016-01-02T00:00:00-06:00</DES_FECHA>\n'
 '    <NUM_VALOR>533.00000000</NUM_VALOR>\n'
 '  </INGC011_CAT_INDICADORECONOMIC>\n'
 '</Datos_de_INGC011_CAT_INDICADORECONOMIC></string>')

tree
<Element {http://ws.sdde.bccr.fi.cr}string at 0x110446900>
('<string '
 'xmlns="http://ws.sdde.bccr.fi.cr"><Datos_de_INGC011_CAT_INDICADORECONOMIC>\n'
 '  <INGC011_CAT_INDICADORECONOMIC>\n'
 '    <COD_INDICADORINTERNO>3148</COD_INDICADORINTERNO>\n'
 '    <DES_FECHA>2016-01-01T00:00:00-06:00</DES_FECHA>\n'
 '    <NUM_VALOR>533.00000000</NUM_VALOR>\n'
 '  </INGC011_CAT_INDICADORECONOMIC>\n'
 '  <INGC011_CAT_INDICADORECONOMIC>\n'
 '    <COD_INDICADORINTERNO>3148</COD_INDICADORINTERNO>\n'
 '    <DES_FECHA>2016-01-02T00:00:00-06:00</DES_FECHA>\n'
 '    <NUM_VALOR>533.00000000</NUM_VALOR>\n'
 '  </INGC011_CAT_INDICADORECONOMIC>\n'
 '</Datos_de_INGC011_CAT_INDICADORECONOMIC></string>')

I couldn't find the reported error, using lib lxml or xml (built-in) with python3.9.

import lxml.etree as ET
from pprint import pprint


xml_str = """
<string xmlns="http://ws.sdde.bccr.fi.cr"><Datos_de_INGC011_CAT_INDICADORECONOMIC>
  <INGC011_CAT_INDICADORECONOMIC>
    <COD_INDICADORINTERNO>3148</COD_INDICADORINTERNO>
    <DES_FECHA>2016-01-01T00:00:00-06:00</DES_FECHA>
    <NUM_VALOR>533.00000000</NUM_VALOR>
  </INGC011_CAT_INDICADORECONOMIC>
  <INGC011_CAT_INDICADORECONOMIC>
    <COD_INDICADORINTERNO>3148</COD_INDICADORINTERNO>
    <DES_FECHA>2016-01-02T00:00:00-06:00</DES_FECHA>
    <NUM_VALOR>533.00000000</NUM_VALOR>
  </INGC011_CAT_INDICADORECONOMIC>
</Datos_de_INGC011_CAT_INDICADORECONOMIC></string>
"""

cleaned_data = xml_str.replace("<", "<")
cleaned_data = cleaned_data.replace(">", ">").strip()
print("cleaned_data")
pprint(cleaned_data)

tree = ET.fromstring(cleaned_data)
print("\ntree")
print(tree)
pprint(ET.tostring(tree).decode())

Output:

cleaned_data
('<string '
 'xmlns="http://ws.sdde.bccr.fi.cr"><Datos_de_INGC011_CAT_INDICADORECONOMIC>\n'
 '  <INGC011_CAT_INDICADORECONOMIC>\n'
 '    <COD_INDICADORINTERNO>3148</COD_INDICADORINTERNO>\n'
 '    <DES_FECHA>2016-01-01T00:00:00-06:00</DES_FECHA>\n'
 '    <NUM_VALOR>533.00000000</NUM_VALOR>\n'
 '  </INGC011_CAT_INDICADORECONOMIC>\n'
 '  <INGC011_CAT_INDICADORECONOMIC>\n'
 '    <COD_INDICADORINTERNO>3148</COD_INDICADORINTERNO>\n'
 '    <DES_FECHA>2016-01-02T00:00:00-06:00</DES_FECHA>\n'
 '    <NUM_VALOR>533.00000000</NUM_VALOR>\n'
 '  </INGC011_CAT_INDICADORECONOMIC>\n'
 '</Datos_de_INGC011_CAT_INDICADORECONOMIC></string>')

tree
<Element {http://ws.sdde.bccr.fi.cr}string at 0x110446900>
('<string '
 'xmlns="http://ws.sdde.bccr.fi.cr"><Datos_de_INGC011_CAT_INDICADORECONOMIC>\n'
 '  <INGC011_CAT_INDICADORECONOMIC>\n'
 '    <COD_INDICADORINTERNO>3148</COD_INDICADORINTERNO>\n'
 '    <DES_FECHA>2016-01-01T00:00:00-06:00</DES_FECHA>\n'
 '    <NUM_VALOR>533.00000000</NUM_VALOR>\n'
 '  </INGC011_CAT_INDICADORECONOMIC>\n'
 '  <INGC011_CAT_INDICADORECONOMIC>\n'
 '    <COD_INDICADORINTERNO>3148</COD_INDICADORINTERNO>\n'
 '    <DES_FECHA>2016-01-02T00:00:00-06:00</DES_FECHA>\n'
 '    <NUM_VALOR>533.00000000</NUM_VALOR>\n'
 '  </INGC011_CAT_INDICADORECONOMIC>\n'
 '</Datos_de_INGC011_CAT_INDICADORECONOMIC></string>')
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文