如何诊断和逆转（而非阻止）Unicode 损坏

发布于 2024-09-04 14:41:03 字数 217 浏览 4 评论 0原文

在我上游的某个地方，发生了看起来像 unicode mangling 的“事情”。一种症状是小写 u 元音变音 (ü) 转换为“ü”（即字符 FC 转换为 C3 BC）。假设我无法控制这个上游流程，我如何对正在发生的事情进行逆向工程？如果可能的话，我可以向后转动香肠机并恢复原始文本吗？

（如果有助于理解这种情况，我收到的文本是 MySQL 转储的形式。我认为在转储/传输过程中的某个地方它被破坏了。）

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

热鲨 2024-09-11 14:41:03

您的文字没有“损坏”。只是UTF8格式的。 C3 BC 是 ü 应该被编码为的内容。只要将您使用的任何软件也设置为 UTF8，所有痛苦都会消失。如果您无法将软件设置为 Unicode，请认真考虑切换到较新的软件。

我知道一开始这很可怕，但无论如何你最终都必须这样做。我最喜欢的音乐排字机不久前切换到纯 Unicode 输入（他们甚至故意删除了对旧 8 位代码页的支持以让人们切换），我很沮丧，认为 Latin-1 对我来说已经足够好了，破坏那些工作得很好的东西是愚蠢的……然后我克服了它，只是将 emacs 设置为 Unicode 缓冲区，现在我再也不用考虑字符编码了！

回复收藏 0 原文