python 的 etree.tostring 的编码问题

发布于 2024-08-04 18:10:09 字数 524 浏览 4 评论 0原文

我正在使用 python 2.6.2 的 xml.etree.cElementTree 创建一个 xml 文档:

import xml.etree.cElementTree as etree
elem = etree.Element('tag')
elem.text = (u"Würth Elektronik Midcom").encode('utf-8')
xml = etree.tostring(elem,encoding='UTF-8')

在一天结束时,xml 看起来像:

<?xml version='1.0' encoding='UTF-8'?>
<tag>W&#195;&#188;rth Elektronik Midcom</tag>

看起来 tostring 忽略了编码参数并将 'ü' 编码为其他一些字符编码 (' ü' 是一个有效的 utf-8 编码,我相当确定)。

任何关于我做错了什么的建议将不胜感激。

I'm using python 2.6.2's xml.etree.cElementTree to create an xml document:

import xml.etree.cElementTree as etree
elem = etree.Element('tag')
elem.text = (u"Würth Elektronik Midcom").encode('utf-8')
xml = etree.tostring(elem,encoding='UTF-8')

At the end of the day, xml looks like:

<?xml version='1.0' encoding='UTF-8'?>
<tag>Würth Elektronik Midcom</tag>

It looks like tostring ignored the encoding parameter and encoded 'ü' into some other character encoding ('ü' is a valid utf-8 encoding, I'm fairly sure).

Any advice as to what I'm doing wrong would be greatly appreciated.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

筑梦 2024-08-11 18:10:09

您对文本进行了两次编码。试试这个:

import xml.etree.cElementTree as etree
elem = etree.Element('tag')
elem.text = u"Würth Elektronik Midcom"
xml = etree.tostring(elem, encoding='UTF-8')

You're encoding the text twice. Try this:

import xml.etree.cElementTree as etree
elem = etree.Element('tag')
elem.text = u"Würth Elektronik Midcom"
xml = etree.tostring(elem, encoding='UTF-8')
铜锣湾横着走 2024-08-11 18:10:09

etree.tostring(elem,encoding=str)

在 Python 3 中将返回 str 但不是 binary

您还可以序列化为 Unicode 字符串而无需声明
传递 unicode 函数作为编码(或 Py3 中的 str),
或名称“unicode”。这改变了字节的返回值
字符串转换为未编码的 unicode 字符串。

etree.tostring(elem, encoding=str)

will return str but not binary in Python 3

You can also serialise to a Unicode string without declaration by
passing the unicode function as encoding (or str in Py3),
or the name 'unicode'. This changes the return value from a byte
string to an unencoded unicode string.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文