当前位置：文江博客话题详情

Unicode character-encoding browser iso-8859-1

如果我在 ISO-8859-1 站点上使用 Unicode，浏览器将如何解释它？

发布于 2024-09-03 06:25:34 字数 648 浏览 8 评论 0原文

所以我有一个使用 ISO-8859-1 编码的网站，但我无法更改它。我想确保我在网站上的 Web 应用程序中输入的内容得到正确解析。解析器逐个字符地工作。我也无法更改解析器，我只是编写文件供其处理。我告诉应用程序在解析后显示的文件内容包含 Unicode 字符（或者至少我这么认为，即使它们是由映射到 CP437 的 Windows Alt 代码生成的）。由于解析器的逐个字符操作，使用实体不是一种选择。解析器在输出时转义的唯一字符是标记敏感字符，例如与号、小于号和大于号。我只想继续进行下去，看看它是什么样子，但输出只能在发布上看到，它必须花几天时间获得批准等，而对于一个测试用例来说，这要求太多了。

所以，长话短说，如果我告诉一个网站在一个带有元标记的网站上输出 ▼ÇÑ¥☺☻，说明它应该使用 ISO-8859-1，浏览器会自动检测 Unicode 并显示它还是会它按字面意思将其翻译为 ISO-8859-1 并获得一组不同的字符？

更新：我在 http://doorstop.csh.rit.edu/home 创建了一个临时测试站点/testing 我在 Notepad++ 中使用没有 BOM 的 UTF-8 制作了测试文件，但使用了将编码设置为 ISO-8859-1 的元标记。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（2）

水染的天色ゝ 2024-09-10 06:25:34

如果您将 UTF-8 发送到被告知期望 ISO-8859-1，那么是的，你会得到 Mojibake :(

考虑一下 UTF-8 序列是简单地用带有高位的 8 位字符引入的设置（即字符值> 127）。期望简单的8位字符编码的东西如何决定特定序列应该被解释为UTF-8而不是被告知使用的编码？

回复收藏 0 原文

感受沵的脚步 2024-09-10 06:25:34

解析器在输出时转义的唯一字符是标记敏感字符，例如“&”、小于和大于符号。

ISO-8859-1 之外的任何内容都可能会导致问题。编码为 ISO-8859-1 的 HTML 可以显示像 ▼☺☻ 这样的字符，但只能通过将它们转义为 ▼☺☻ 来实现。否则，它们就超出了编码范围。

字符 ÇÑ¥ 受 ISO-8859-1 支持，在正确实施的系统中不应造成问题。

解析器是否可以在显示之前正确解析文件取决于其实现以及它及其 Web 容器是否尊重您可能能够发送的任何编码元数据。

Unicode 是一种支持多种编码的字符集。例如，编码为 UTF-8 的 U+263a ☺ 变为字节 e2 98 ba，如果将其视为 ISO-8859-1，则该字节将解码为 â。

回复收藏 0 原文

~没有更多了~

关于作者

爱本泡沫多脆弱

暂无简介

0 文章

0 评论

22 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

離殇

文章 0 评论 0

小姐丶请自重

文章 0 评论 0

Aik

文章 0 评论 0

国产ˉ祖宗

文章 0 评论 0

猥琐帝

文章 0 评论 0

半仙

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文