当前位置：文江博客话题详情

win32 上的 libxml 字符编码问题

发布于 2024-08-02 05:58:29 字数 162 浏览 6 评论 0原文

使用 libxml 解析某些 html 文件时，函数 xmlParseFile() 返回代码包含非 UTF-8 字符如何将库的默认字符集修改为 ISO-8859-1 ？还有其他方法可以解决这个问题吗？

PS：整个开发基于libxml，并且在大多数情况下都可以工作，因此我无法切换到另一个库。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

豆芽 2024-08-09 05:58:29

用于 XML 数据的编码必须在 XML 的序言中指定。如果未指定编码，W3 的 XML 规范规定必须采用 UTF-8。

为什么使用 XML 解析器来解析 HTML 数据？ libxml 有一个与其 XML 解析器分开的 HTML 解析器。查看 htmlParseFile() 和相关函数。由于 HTML 不是 XML，因此不会出现 XML 序言来指示数据编码。不过，HTML 确实有一个标记，可以在标记内使用。如果没有直接显式传递给 htmlParseFile()，libxml 的 HTML 解析器会查找该标记来确定编码。

回复收藏 0 原文

~没有更多了~