HTML 编码问题 - “”xC2;”显示字符而不是“ ”

发布于 2024-08-05 06:47:36 字数 1186 浏览 6 评论 0原文

我的旧版应用程序刚刚开始出现问题，无论出于何种原因，我都不确定。它生成一堆 HTML，然后由 ActivePDF 将其转换为 PDF 报告。

该过程的工作原理如下：

从数据库中提取一个 HTML 模板，其中包含要替换的标记（例如“~CompanyName~”、“~CustomerName~”等）
用真实数据替换标记
使用简单的正则表达式整理 HTML属性格式化 HTML 标签属性值的函数（确保引号等，因为 ActivePDF 的渲染引擎讨厌除属性值周围的单引号之外的任何内容）
将 HTML 发送到创建 PDF 的 Web 服务。

在混乱中的某个地方，HTML 模板中的不间断空格（ s）被编码为 ISO-8859-1，因此在以下情况下它们会错误地显示为“Â”字符：在浏览器 (FireFox) 中查看文档。 ActivePDF 对这些非 UTF8 字符感到恶心。

我的问题：由于我不知道问题出在哪里，也没有时间调查它，是否有一种简单的方法来重新编码或查找并替换坏字符？我尝试过通过我组合在一起的这个小函数发送它，但是它~~将其全部变成了官样文章~~并没有改变任何东西。

Private Shared Function ConvertToUTF8(ByVal html As String) As String
    Dim isoEncoding As Encoding = Encoding.GetEncoding("iso-8859-1")
    Dim source As Byte() = isoEncoding.GetBytes(html)
    Return Encoding.UTF8.GetString(Encoding.Convert(isoEncoding, Encoding.UTF8, source))
End Function

有什么想法吗？

编辑：

我现在正在解决这个问题，尽管这似乎不是一个好的解决方案：

Private Shared Function ReplaceNonASCIIChars(ByVal html As String) As String
    Return Regex.Replace(html, "[^\u0000-\u007F]", "&nbsp;")
End Function

原文

I've got a legacy app just starting to misbehave, for whatever reason I'm not sure. It generates a bunch of HTML that gets turned into PDF reports by ActivePDF.

The process works like this:

Pull an HTML template from a DB with tokens in it to be replaced (e.g. "~CompanyName~", "~CustomerName~", etc.)
Replace the tokens with real data
Tidy the HTML with a simple regex function that property formats HTML tag attribute values (ensures quotation marks, etc, since ActivePDF's rendering engine hates anything but single quotes around attribute values)
Send off the HTML to a web service that creates the PDF.

Somewhere in that mess, the non-breaking spaces from the HTML template (the s) are encoding as ISO-8859-1 so that they show up incorrectly as an "Â" character when viewing the document in a browser (FireFox). ActivePDF pukes on these non-UTF8 characters.

My question: since I don't know where the problem stems from and don't have time to investigate it, is there an easy way to re-encode or find-and-replace the bad characters? I've tried sending it through this little function I threw together, but it ~~turns it all into gobbledegook~~ doesn't change anything.

Private Shared Function ConvertToUTF8(ByVal html As String) As String
    Dim isoEncoding As Encoding = Encoding.GetEncoding("iso-8859-1")
    Dim source As Byte() = isoEncoding.GetBytes(html)
    Return Encoding.UTF8.GetString(Encoding.Convert(isoEncoding, Encoding.UTF8, source))
End Function

Any ideas?

EDIT:

I'm getting by with this for now, though it hardly seems like a good solution:

Private Shared Function ReplaceNonASCIIChars(ByVal html As String) As String
    Return Regex.Replace(html, "[^\u0000-\u007F]", " ")
End Function

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

猫卆 2024-08-12 06:47:36

在混乱中的某个地方，HTML 模板中的不间断空格（ s）被编码为 ISO-8859-1，因此它们错误地显示为“Â”字符

然后编码为 UTF-8 ，而不是 ISO-8859-1。不间断空格字符是 ISO-8859-1 中的字节 0xA0；当编码为 UTF-8 时，它将是 0xC2,0xA0，如果您（错误地）将其视为 ISO-8859-1，则会显示为 "Â "。其中包括您可能没有注意到的尾随 nbsp；如果该字节不存在，则说明有其他内容损坏了您的文档，我们需要进一步查看以找出原因。

什么是正则表达式，模板如何工作？如果您的字符串（正确地）被转换为 U+00A0 NON-BREAKING SPACE 字符，那么似乎在某处涉及了正确的 HTML 解析器。如果是这样，您可以在 DOM 中本地处理模板，并要求它使用 ASCII 编码进行序列化，以将非 ASCII 字符保留为字符引用。这也将阻止您对 HTML 本身进行正则表达式后处理，这始终是一件非常危险的事情。

无论如何，现在您可以将以下内容之一添加到文档的中，看看这是否使其在浏览器中看起来正确：

对于 HTML4：
对于 HTML5：

如果您完成此操作后，剩下的任何问题都是 ActivePDF 的错。

回复收藏 0 原文

原野 2024-08-12 06:47:36

如果有人和我有同样的问题并且字符集已经正确，只需执行以下操作：

复制 .html 文件中的所有代码。
打开记事本（或任何基本文本编辑器）并粘贴代码。
转到“文件 -> 另存为”
输入文件名“example.html”（选择“保存类型：所有文件（.）”）
选择编码为 UTF-8
点击保存即可现在删除旧的 .html 文件并且编码应该被修复

回复收藏 0 原文

伪装你 2024-08-12 06:47:36

问题：
即使我也面临这样的问题：我们在 POST 请求中向 CRM 系统发送带有某些字符串的 '£' ，但是当我们从 CRM 进行 GET 调用时，它返回 'Â£ ' 带有一些字符串内容。所以我们分析的是 '£' 被转换为 'â£'。

分析：
研究后发现的问题是，在 POST 调用中，我们将 HttpWebRequest ContentType 设置为“text/xml”，而在 GET 调用中，设置为 “text/xml; charset:utf- 8”。

解决方案：
因此，作为解决方案的一部分，我们在 POST 请求中包含了 charset:utf-8 并且它可以工作。

回复收藏 0 原文

℡寂寞咖啡 2024-08-12 06:47:36

就我而言，这种情况（带有插入符号）发生在我使用自己的代码生成工具从 Visual Studio 生成的代码中。解决起来很简单：

在文档中选择单个空格 ( )。您应该能够看到许多看起来与其他单个空间不同的单个空间，它们未被选中。选择这些其他单个空格 - 它们是浏览器中出现不需要的字符的原因。转至查找并用单个空格替换 ( )。完毕。

PS：将光标放在某个字符上或者在VS2017+中选择它，可以更容易地看到所有相似的字符；我希望其他IDE也能有类似的功能

回复收藏 0 原文

浸婚纱 2024-08-12 06:47:36

就我而言，即使页面已正确编码为 UTF-8，我也得到拉丁十字符号而不是 nbsp。以上都没有帮助解决问题，我尝试了所有方法。

最后，更改 IE 字体（使用浏览器特定的 css）有所帮助，我使用 Helvetica-Nue 作为正文字体，更改为 Arial 解决了问题。

回复收藏 0 原文

风铃鹿 2024-08-12 06:47:36

原因是 PHP 不识别 utf-8。

在这里您可以检查 HTML 中的所有特殊字符

http://www.degraeve.com/reference/特殊字符.php

回复收藏 0 原文

萌辣 2024-08-12 06:47:36

好吧，我在我的几个网站中也遇到了这个问题，我所需要做的就是为 HTML 实体自定义内容 fetler。在此之前，我删除了更多的内容，所以只需更改页面的 html fiter 或解析功能即可。这主要是由于大多数 CMS 中的 HTML 编辑器所致。他们存储解析数据的方式导致了这个问题（就我而言）。希望这对你的情况也有帮助

回复收藏 0 原文

囍孤女 2024-08-12 06:47:36

我也遇到了同样的问题。显然这只是因为 PHP 不识别 utf-8。

当“£”符号一直显示为“£”时，我一开始感到抓狂，尽管它在 DreamWeaver 中显示正常。最终我记得我在与索引文件相关的链接方面遇到了问题，当页面直接查看时可以使用幻灯片，但与包含一起使用时则不行（但这不是重点。无论如何，我想知道这是否可能是一个类似的问题，因此我没有将其放入遇到问题的页面，而是将其放入 index.php 文件中 - 问题始终得到解决。

回复收藏 0 原文

~没有更多了~