如何确定“最低”编码可以吗？

发布于 2024-09-20 00:28:33 字数 903 浏览 15 评论 0原文

场景

您有大量以 UTF-16 格式存储在数据库或服务器中的 XML 文件，空间不成问题。您需要将访问其他系统所需的大部分文件作为 XML 文件，并且使用尽可能少的空间至关重要。

问题

实际上，存储为 UTF-16 的文件中只有大约 10% 需要存储为 UTF-16，其余的可以安全地存储为 UTF-8 并且没问题。如果我们可以将需要为 UTF-16 的部分设为 UTF-16，而将其余部分设为 UTF-8，我们可以在文件系统上使用大约 40% 的空间。

我们尝试对数据进行大幅压缩，这很有用，但我们发现使用 UTF-8 获得的压缩率与使用 UTF-16 获得的压缩率相同，而且 UTF-8 的压缩速度也更快。因此最终如果尽可能多的数据存储为UTF-8，我们不仅可以在未压缩存储时节省空间，即使在压缩时我们仍然可以节省更多空间，甚至可以通过压缩本身节省时间。

目标

找出 XML 文件中何时存在需要 UTF-16 的 Unicode 字符，以便我们只能在必要时使用 UTF-16。

有关 XML 文件和数据的一些详细信息

虽然我们控制 XML 本身的架构，但从 Unicode 角度来看，我们无法控制值中可以包含什么类型的“字符串”，因为源是免费提供的要使用的 Unicode 数据。然而，这种情况很少见，因此我们不希望每次都使用 UTF-16 来支持只在 10% 的时间需要的东西。

开发环境

我们使用 C# 和 .Net Framework 4.0。

编辑：解决方案

解决方案就是使用UTF-8。

这个问题是基于我对 UTF 的误解，感谢大家帮助我纠正错误。谢谢你！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

携余温的黄昏 2024-09-27 00:28:33

编辑：我没有意识到您的问题暗示您认为有些 Unicode 字符串无法安全地编码为 UTF-8。事实并非如此。以下答案假设您的真正意思是某些字符串会比 UTF-8 更长（占用更多存储空间）。

我想说，甚至只有不到 10% 的文件需要存储为 UTF-16。即使您的 XML 包含大量中文、日文、韩文或其他 UTF-8 格式比 UTF-16 格式更大的语言，如果该语言中的文本多于 XML 语法，这仍然是一个问题。

因此，我最初的直觉是“使用UTF-8，直到出现问题为止”。这也有助于保持一致性。

如果您有充分的理由相信 XML 的很大一部分将来自东亚，那么您才需要担心它。在这种情况下，我会应用一个简单的启发式方法，例如......遍历 XML 并计算大于 U+0800 的字符数（这些是 UTF-8 中的三个字节），并且仅当它大于小于 U+0080 的字符（这些字符在 UTF-8 中是一个字节），请使用 UTF-16。

回复收藏 0 原文

林空鹿饮溪 2024-09-27 00:28:33

将所有内容编码为 UTF-8。 UTF-8 可以处理 UTF-16 可以处理的任何内容，并且对于 XML 文档来说几乎肯定会更小。 UTF-8 大于 UTF-16 的唯一情况是文件主要由 BMP 之外的字符组成，并且在最好的情况下（ASCII 规范，包括您可以在标准 US 上键入的每个字符） 104 键）UTF-8 文件的大小是 UTF-16 文件的一半。

对于序数 U07FF 或以下的所有符号，UTF-8 要求每个字符 2 个字节或更少，对于扩展 ASCII 代码页中的任何字符，每个字符需要 1 个字节；这意味着对于使用拉丁语、希腊语、西里尔语、希伯来语或阿拉伯字母（包括大多数常见符号）的现代语言的任何文档，UTF-8 的大小至少等于 UTF-16（并且可能小得多）用于代数和 IPA。这被称为基础多语言平面，涵盖亚洲以外 90% 以上的官方国家语言。

作为一般规则，UTF-16 将为您提供一个较小的文件，用于主要使用梵文（印地语）、日语、中文或朝鲜文（韩语）字母表或任何古代或“深奥”字母表（切罗基语或因纽特语）编写的文档？），如果文档大量使用专门的数学、科学、工程或游戏符号，则可能会更小。如果您正在使用的 XML 用于印度、中国和日本的本地化文件，则使用 UTF-16 可能会获得较小的文件大小，但您必须使您的程序足够智能，以知道本地化文件是这样编码的。

回复收藏 0 原文