®转换为 Â®在Python中解析XML时

发布于 2024-12-06 20:21:35 字数 494 浏览 0 评论 0原文

我的 RSS 提要包含：

<title><![ CDATA[HBO Wins 19 Emmy® Awards, The Most of Any Network This Year]]></title>

现在我正在解析 RSS，然后将标题分配给标题，如下所示：

 for item in XML.ElementFromURL(feed).xpath('//item',namespaces=NEWS_NS):
        title = item.find('title').text
        Log("Title :"+title)

当我检查输出或日志文件时，我会看到如下标题：

HBO 荣获 19 项艾美奖，是今年获得艾美奖最多的网络。

® 转换为 ® 。我尝试过使用 HTML 解析器但没有用。

原文

My RSS feed ontains:

<title><![ CDATA[HBO Wins 19 Emmy® Awards, The Most of Any Network This Year]]></title>

Now I am parsing RSS and then assigning the title to title as below:

 for item in XML.ElementFromURL(feed).xpath('//item',namespaces=NEWS_NS):
        title = item.find('title').text
        Log("Title :"+title)

and when I am checking the out put or the log file then I see the title as below:

HBO Wins 19 EmmyÂ® Awards, The Most of Any Network This Year.

® gets converted to Â® . Any I tried using HTML parser but no use.

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

双马尾 2024-12-13 20:21:35

您声明 feed 的编码是 ISO-8859-1。

在这种情况下，如果您所说的应解释为 ® 的字节实际上是 C2 AE，则文本真的，真的为 < code>Emmy® Awards，一切都按预期进行。如果发送者想要不同的文本，他们会发送不同的数据或设置不同的编码。

如果提要的编码为 UTF-8，并且通过线路发送的字节仍为 C2 AE，则文本将为 Emmy® Awards。

如果 Feed 的编码为 ISO-8859-1，并且通过线路发送的字节只是 AE，没有 C2，则文本将为 艾美®奖。

要确定字节是什么，请在 Unix 中使用 od -x 命令，或者在 Windows 中使用 debug.exe 中的 d 命令。在这种情况下不要相信记事本。它撒谎了。

回复收藏 0 原文

风向决定发型 2024-12-13 20:21:35

您收到了一些使用 UTF-8 编码的文本，但在某些时候这些字节被错误地解释为 ISO-8859-1 或其他编码。

如果没有更多上下文，就很难准确判断错误发生在哪里。您应该首先检查用于读取日志文件的编码。

回复收藏 0 原文

樱桃奶球 2024-12-13 20:21:35

我尝试了以下操作并成功：

title = item.find('title').text
title = title.encode('iso-8859-1')

当我将字符串转换为 UTF-8(® 到 ® ) 并将其转换回 iso-8859-1(® 到 ® ) 并获得正确的输出时

I tried the following and worked:

title = item.find('title').text
title = title.encode('iso-8859-1')

When I am getting the string converted to UTF-8(® to Â® ) and I am converting it back to iso-8859-1(Â® to ® ) and getting the correct output

回复收藏 0 原文

~没有更多了~

关于作者

初见

暂无简介

0 文章

0 评论

24 人气

关注发私信

已经忘了多久

文章 0 评论 0

关注

15867725375

文章 0 评论 0

关注

LonelySnow

文章 0 评论 0

关注

走过海棠暮

文章 0 评论 0

关注

轻许诺言

文章 0 评论 0

关注

信馬由缰

文章 0 评论 0

友情链接

文江博客

®转换为 Â®在Python中解析XML时

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接

®转换为 Â®在Python中解析XML时

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。