当前位置：文江博客话题详情

确定/转换外部 HTML 文件编码的最佳方法是什么？

发布于 2024-10-12 08:54:31 字数 230 浏览 4 评论 0原文

我正在解析来自大约 100 个不同域的 HTML。我可以检查每个域使用的编码&那样做事情，但这似乎很愚蠢。

通常编码位于标头标签中，是吗？但我并不总是收集。所以我可能需要运行一些正则表达式？或使用一些 mb_ 函数。或者也许使用 cURL？到目前为止我找到的所有示例都是针对 XML 和 XML 的。现在我很头疼。

是的，我也使用 DOMDocument 类来查找我想要的内容。这一切都很好。除了编码之外。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

笑梦风尘 2024-10-19 08:54:31

根据 W3C 国际化标准，您应该遵循这些优先级，以便获取 HTML/XML 文档的编码：

Content-Type 标头（来自 HTTP 响应）
XML 或 XHTML 声明，例如：
meta 标记与 http-equiv="Content-Type" （来自 HTML 标头）

根据我的经验，当所有这些都失败时，您可以假设编码很可能是 ISO-8859-1 或 CP1252。您可以使用 iconv 库解码内容，例如：iconv("UTF-8", "ISO-8859-1", $content)。

如果您使用 cURL 库来获取 URL，则可以通过以下方式获取内容类型标头：curl_getinfo($ch, CURLINFO_CONTENT_TYPE)。其他标签可以使用 XML/HTML 解析器提取。

回复收藏 0 原文

近箐 2024-10-19 08:54:31

您可以解析元标记，任何负责任的程序员都应将其包含在元素中。

<meta http-equiv="content-type" 
        content="text/html;charset=utf-8" />

您还可以选择拒绝任何标头或元标记中没有字符集的 html。

You can parse a meta tag which any responsible programmer should have included in the <head> element.

<meta http-equiv="content-type" 
        content="text/html;charset=utf-8" />

You can also choose to reject any html which does not have the charset in the header or in a meta tag.

回复收藏 0 原文

~没有更多了~

关于作者

糖粟与秋泊

暂无简介

0 文章

0 评论

21 人气

关注发私信

友情链接

文江博客

确定/转换外部 HTML 文件编码的最佳方法是什么？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

linfzu01

§对你不离不弃

可遇━不可求

枕梦

qq_3LFa8Q

JP

友情链接

确定/转换外部 HTML 文件编码的最佳方法是什么？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

linfzu01

§对你不离不弃

可遇━不可求

枕梦

qq_3LFa8Q

JP

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。