如何加载未经净化的 XML？

发布于 07-30 03:43 字数 671 浏览 2 评论 0原文

当前发行版中的应用程序生成了各种 XML 文件。其中一些文件已被证明包含无效字符，从而使它们呈现无效的 XML，除非关闭所有验证，否则在大多数情况下不会加载它们，然后，仅在 XmlDocument 实例中，而不是 XDocument。

由于这个应用程序已经存在，我们必须处理它生成的文件。现在，我可以继续添加一个 Sanitizer 类型，它知道在尝试加载文档之前要查找什么以及如何修复它，但我希望有人可能已经付出了努力来生成某些东西可能已经以有效的方式做到了这一点（例如 SanitizedXmlReader 类）。

这个问题涉及同一主题，但我在那里没有找到令人满意的答案。我们想要的只是删除 XML 文件中任何位置无效的内容（而不是仅在 CDATA 中有效或未在 QName 中使用时有效的数据）。

那么，是否存在这样的东西，可以将“几乎”的 XML 文件变成“至少没有无效字符”的 XML 文件呢？如果没有，下一个选择是我们自己推出。在这种情况下，与其花时间解释 XML 规范来确定哪些字符在所有情况下都是非法的，不如在某个地方有一个明确的列表？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

债姬2024-08-06 03:43:44

几年前，我使用 SGMLReader 来加载蹩脚的 HTML 代码。这也可以帮助您解析无效的 XML。

PS：同时还有一个 NuGet 包，源代码可在 Github。

回复收藏 0 原文

醉生梦死2024-08-06 03:43:44

问题

如果您最终自己编写了一些字符，那么了解哪些字符是有效的肯定有点棘手。

XML 1.1 更改了规则，但我们假设没有人使用它（因为几乎没有人这样做），并坚持使用 1.0。

XML 1.0 修订版 5 还更改了早期版本，但您无法从文档本身中看出任何情况。它简化了有关 Unicode 的一些事情，但违背了一些原始规范作者的建议。我们也假设这个问题不存在。

答案

Java 有一个漂亮的小类 XmlChar，它具有可用于确定哪些字符对于哪些构造有效的方法。 .Net 没有，但 Mono 项目包含 System.Xml.XmlChar 这可能会帮助您。

您可以首先过滤掉所有绝对不允许的字符。上述 Mono 类中的 XmlChar.IsValid(char c) 方法应该会有所帮助。

了解应用程序生成的其他类型的不良 XML 会很有趣。

回复收藏 0 原文

~没有更多了~

关于作者

子栖

暂无简介

文章

26 人气

关注发私信

友情链接

文江博客

如何加载未经净化的 XML？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

15077827184

遗失的美好

离不开的别离

3857621955

懒猫

洋洋洒洒

友情链接

如何加载未经净化的 XML？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

15077827184

遗失的美好

离不开的别离

3857621955

懒猫

洋洋洒洒

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。