Atom feed XML 的奇怪编码

发布于 2024-11-02 11:57:39 字数 1273 浏览 3 评论 0原文

我正在 WP7 上用 C# 创建一些 OPDS 阅读器应用程序，同时我发现了奇怪的行为（至少对我来说很奇怪）。 OPDS 是基于 Atom 的 XML，我正在使用 RestSharp 库，它提供了一些 XML 反序列化器。大多数提要都已正确下载和解析。但在解析某些提要时存在一些例外情况。

我调查了一些发生异常的原因，发现了这一点：

这些页面上发生异常（例如）：

当我复制这些 XML 的代码，将其粘贴到 Notepad++ 并在粘贴的代码上应用 Tidy：重新缩进 XML 功能时，Notepad/Tidy 报告一些错误。当我查看错误发生的位置时，通常是在某些重音字符（或重音字符）上。

具体来说：在第一个链接上，第 161 行第 26 列有错误，即单词 What's，特别是类似撇号的字符。

当我查看真正下载的内容（通过 Wireshark）时，在 char 't' 和 char 's' 之间有三个字节。这些字节的十六进制值是 {e2,80,99}。它们都不是与撇号 char 类似的东西。

我敢打赌这是解析问题的原因，但我不太明白。

我的浏览器 (Opera) 正在进行什么转换？

Opera 显示提要“ok”，
甚至显示代码“ok”，
但它复制了原始字节，
而 Notepad 的 Tidy 在它们上“崩溃”。

有人可以帮我解决这个问题吗？也许我错过了一些关于编码的基本知识......？（问题不是专门关于 WP7 解决方案，而是关于字符的一般编码）

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

陈甜 2024-11-09 11:57:39

e28099 是 Unicode 字符“右单引号”(U+2019)，以 UTF-8 编码。没什么花哨的，很简单。我不熟悉您使用的工具，但请确保原始字节流的接收和 XML 解析器/反序列化器之间没有任何干扰。任何像样的解析器都应该能够处理这些提要及其使用的编码；我会更仔细地查看您的工具链的设置。

回复收藏 0 原文

混吃等死 2024-11-09 11:57:39

您的问题可能与这些不是有效的 ATOM feed 有关吗？

W3C 验证器中的结果显示无效：
http://validator.w3 .org/feed/check.cgi?url=http%3A%2F%2Fpragprog.com%2Fmagazines.opds

回复收藏 0 原文

~没有更多了~

关于作者

菩提树下叶撕阳。

暂无简介

0 文章

0 评论

24 人气

关注发私信

友情链接

文江博客

Atom feed XML 的奇怪编码

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

小瓶盖

wxsp_Ukbq8xGR

1638627670

仅一夜美梦

夜访吸血鬼

近卫軍团

友情链接

Atom feed XML 的奇怪编码

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

小瓶盖

wxsp_Ukbq8xGR

1638627670

仅一夜美梦

夜访吸血鬼

近卫軍团

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。