在 python 中使用 &lt 和 &gt 字符解析 XML ElementTree

发布于 2025-01-13 04:42:06 字数 1282 浏览 3 评论 0原文

我正在使用公共 API，从 API 得到的响应是

<string xmlns="http://ws.sdde.bccr.fi.cr">&lt;Datos_de_INGC011_CAT_INDICADORECONOMIC&gt;
  &lt;INGC011_CAT_INDICADORECONOMIC&gt;
    &lt;COD_INDICADORINTERNO&gt;3148&lt;/COD_INDICADORINTERNO&gt;
    &lt;DES_FECHA&gt;2016-01-01T00:00:00-06:00&lt;/DES_FECHA&gt;
    &lt;NUM_VALOR&gt;533.00000000&lt;/NUM_VALOR&gt;
  &lt;/INGC011_CAT_INDICADORECONOMIC&gt;
  &lt;INGC011_CAT_INDICADORECONOMIC&gt;
    &lt;COD_INDICADORINTERNO&gt;3148&lt;/COD_INDICADORINTERNO&gt;
    &lt;DES_FECHA&gt;2016-01-02T00:00:00-06:00&lt;/DES_FECHA&gt;
    &lt;NUM_VALOR&gt;533.00000000&lt;/NUM_VALOR&gt;
  &lt;/INGC011_CAT_INDICADORECONOMIC&gt;
&lt;/Datos_de_INGC011_CAT_INDICADORECONOMIC&gt;</string>

我正在尝试使用 ElementTree 解析该 XML，但它不起作用，我的假设是它不起作用，因为 &lt和 &gt 位于响应中，而不是 <> 但即使在替换 xml 解析器之后仍然不起作用

有什么想法吗？

我使用的代码：

response = requests.get(url)
cleaned_data = response.text.replace('&lt;','<')
cleaned_data = cleaned_data.replace('&gt;','>')
tree = ET.fromstring(cleaned_data)
print(tree)

原文

I am using a public API and the response im getting from the API is

<string xmlns="http://ws.sdde.bccr.fi.cr"><Datos_de_INGC011_CAT_INDICADORECONOMIC>
  <INGC011_CAT_INDICADORECONOMIC>
    <COD_INDICADORINTERNO>3148</COD_INDICADORINTERNO>
    <DES_FECHA>2016-01-01T00:00:00-06:00</DES_FECHA>
    <NUM_VALOR>533.00000000</NUM_VALOR>
  </INGC011_CAT_INDICADORECONOMIC>
  <INGC011_CAT_INDICADORECONOMIC>
    <COD_INDICADORINTERNO>3148</COD_INDICADORINTERNO>
    <DES_FECHA>2016-01-02T00:00:00-06:00</DES_FECHA>
    <NUM_VALOR>533.00000000</NUM_VALOR>
  </INGC011_CAT_INDICADORECONOMIC>
</Datos_de_INGC011_CAT_INDICADORECONOMIC></string>

I am trying to parse that XML using ElementTree but it is not working, my assumption is that its not working beacuse of the < and > that are in the response instead of <> but even after replacing the xml parser still doesnt work

Any ideas?

The code im using:

response = requests.get(url)
cleaned_data = response.text.replace('<','<')
cleaned_data = cleaned_data.replace('>','>')
tree = ET.fromstring(cleaned_data)
print(tree)

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

甜｀诱少女 2025-01-20 04:42:06

我找不到报告的错误，使用lib lxml或xml（内置）与python3.9。

import lxml.etree as ET
from pprint import pprint


xml_str = """
<string xmlns="http://ws.sdde.bccr.fi.cr"><Datos_de_INGC011_CAT_INDICADORECONOMIC>
  <INGC011_CAT_INDICADORECONOMIC>
    <COD_INDICADORINTERNO>3148</COD_INDICADORINTERNO>
    <DES_FECHA>2016-01-01T00:00:00-06:00</DES_FECHA>
    <NUM_VALOR>533.00000000</NUM_VALOR>
  </INGC011_CAT_INDICADORECONOMIC>
  <INGC011_CAT_INDICADORECONOMIC>
    <COD_INDICADORINTERNO>3148</COD_INDICADORINTERNO>
    <DES_FECHA>2016-01-02T00:00:00-06:00</DES_FECHA>
    <NUM_VALOR>533.00000000</NUM_VALOR>
  </INGC011_CAT_INDICADORECONOMIC>
</Datos_de_INGC011_CAT_INDICADORECONOMIC></string>
"""

cleaned_data = xml_str.replace("<", "<")
cleaned_data = cleaned_data.replace(">", ">").strip()
print("cleaned_data")
pprint(cleaned_data)

tree = ET.fromstring(cleaned_data)
print("\ntree")
print(tree)
pprint(ET.tostring(tree).decode())

输出：

cleaned_data
('<string '
 'xmlns="http://ws.sdde.bccr.fi.cr"><Datos_de_INGC011_CAT_INDICADORECONOMIC>\n'
 '  <INGC011_CAT_INDICADORECONOMIC>\n'
 '    <COD_INDICADORINTERNO>3148</COD_INDICADORINTERNO>\n'
 '    <DES_FECHA>2016-01-01T00:00:00-06:00</DES_FECHA>\n'
 '    <NUM_VALOR>533.00000000</NUM_VALOR>\n'
 '  </INGC011_CAT_INDICADORECONOMIC>\n'
 '  <INGC011_CAT_INDICADORECONOMIC>\n'
 '    <COD_INDICADORINTERNO>3148</COD_INDICADORINTERNO>\n'
 '    <DES_FECHA>2016-01-02T00:00:00-06:00</DES_FECHA>\n'
 '    <NUM_VALOR>533.00000000</NUM_VALOR>\n'
 '  </INGC011_CAT_INDICADORECONOMIC>\n'
 '</Datos_de_INGC011_CAT_INDICADORECONOMIC></string>')

tree
<Element {http://ws.sdde.bccr.fi.cr}string at 0x110446900>
('<string '
 'xmlns="http://ws.sdde.bccr.fi.cr"><Datos_de_INGC011_CAT_INDICADORECONOMIC>\n'
 '  <INGC011_CAT_INDICADORECONOMIC>\n'
 '    <COD_INDICADORINTERNO>3148</COD_INDICADORINTERNO>\n'
 '    <DES_FECHA>2016-01-01T00:00:00-06:00</DES_FECHA>\n'
 '    <NUM_VALOR>533.00000000</NUM_VALOR>\n'
 '  </INGC011_CAT_INDICADORECONOMIC>\n'
 '  <INGC011_CAT_INDICADORECONOMIC>\n'
 '    <COD_INDICADORINTERNO>3148</COD_INDICADORINTERNO>\n'
 '    <DES_FECHA>2016-01-02T00:00:00-06:00</DES_FECHA>\n'
 '    <NUM_VALOR>533.00000000</NUM_VALOR>\n'
 '  </INGC011_CAT_INDICADORECONOMIC>\n'
 '</Datos_de_INGC011_CAT_INDICADORECONOMIC></string>')

I couldn't find the reported error, using lib lxml or xml (built-in) with python3.9.

import lxml.etree as ET
from pprint import pprint


xml_str = """
<string xmlns="http://ws.sdde.bccr.fi.cr"><Datos_de_INGC011_CAT_INDICADORECONOMIC>
  <INGC011_CAT_INDICADORECONOMIC>
    <COD_INDICADORINTERNO>3148</COD_INDICADORINTERNO>
    <DES_FECHA>2016-01-01T00:00:00-06:00</DES_FECHA>
    <NUM_VALOR>533.00000000</NUM_VALOR>
  </INGC011_CAT_INDICADORECONOMIC>
  <INGC011_CAT_INDICADORECONOMIC>
    <COD_INDICADORINTERNO>3148</COD_INDICADORINTERNO>
    <DES_FECHA>2016-01-02T00:00:00-06:00</DES_FECHA>
    <NUM_VALOR>533.00000000</NUM_VALOR>
  </INGC011_CAT_INDICADORECONOMIC>
</Datos_de_INGC011_CAT_INDICADORECONOMIC></string>
"""

cleaned_data = xml_str.replace("<", "<")
cleaned_data = cleaned_data.replace(">", ">").strip()
print("cleaned_data")
pprint(cleaned_data)

tree = ET.fromstring(cleaned_data)
print("\ntree")
print(tree)
pprint(ET.tostring(tree).decode())

Output:

cleaned_data
('<string '
 'xmlns="http://ws.sdde.bccr.fi.cr"><Datos_de_INGC011_CAT_INDICADORECONOMIC>\n'
 '  <INGC011_CAT_INDICADORECONOMIC>\n'
 '    <COD_INDICADORINTERNO>3148</COD_INDICADORINTERNO>\n'
 '    <DES_FECHA>2016-01-01T00:00:00-06:00</DES_FECHA>\n'
 '    <NUM_VALOR>533.00000000</NUM_VALOR>\n'
 '  </INGC011_CAT_INDICADORECONOMIC>\n'
 '  <INGC011_CAT_INDICADORECONOMIC>\n'
 '    <COD_INDICADORINTERNO>3148</COD_INDICADORINTERNO>\n'
 '    <DES_FECHA>2016-01-02T00:00:00-06:00</DES_FECHA>\n'
 '    <NUM_VALOR>533.00000000</NUM_VALOR>\n'
 '  </INGC011_CAT_INDICADORECONOMIC>\n'
 '</Datos_de_INGC011_CAT_INDICADORECONOMIC></string>')

tree
<Element {http://ws.sdde.bccr.fi.cr}string at 0x110446900>
('<string '
 'xmlns="http://ws.sdde.bccr.fi.cr"><Datos_de_INGC011_CAT_INDICADORECONOMIC>\n'
 '  <INGC011_CAT_INDICADORECONOMIC>\n'
 '    <COD_INDICADORINTERNO>3148</COD_INDICADORINTERNO>\n'
 '    <DES_FECHA>2016-01-01T00:00:00-06:00</DES_FECHA>\n'
 '    <NUM_VALOR>533.00000000</NUM_VALOR>\n'
 '  </INGC011_CAT_INDICADORECONOMIC>\n'
 '  <INGC011_CAT_INDICADORECONOMIC>\n'
 '    <COD_INDICADORINTERNO>3148</COD_INDICADORINTERNO>\n'
 '    <DES_FECHA>2016-01-02T00:00:00-06:00</DES_FECHA>\n'
 '    <NUM_VALOR>533.00000000</NUM_VALOR>\n'
 '  </INGC011_CAT_INDICADORECONOMIC>\n'
 '</Datos_de_INGC011_CAT_INDICADORECONOMIC></string>')

回复收藏 0 原文

~没有更多了~