当前位置：文江博客话题详情

将字符串编码为具有更多字符的另一个基数？

发布于 2024-12-09 05:20:15 字数 281 浏览 0 评论 0原文

我知道我可以将数字编码为像 65 这样的基数减小字符显示的大小（即使二进制数字较小）。

但是，有没有办法将 UTF-8 文本编码为比我们标准 26 字母英文字母表更多字符的另一种基数？ 换句话说，而不是需要 4 个“字符”来表示“四”这个词- 我可以只使用2个（即“6$”）来创建表示或散列？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

面如桃花 2024-12-16 05:20:15

我相信 Base64 的要点是您可以轻松地将任何二进制数据转换为“人类可读”的字母和数字。它可以轻松地将任意数据转录到新闻组或通过基于文本的协议传输它们。

如果你想进一步“压缩”这些数据，你需要弄清楚你想要允许多少个字符。 8 位的组合只有这么多。最有效的方法是使用所有这些，在这种情况下为什么不使用 gzip 呢？

回复收藏 0 原文

情仇皆在手 2024-12-16 05:20:15

您的问题似乎与 Order-0 熵编码有关：
http://en.wikipedia.org/wiki/Entropy_encoding

这个家族最著名的算法是霍夫曼编码：
http://en.wikipedia.org/wiki/Huffman_coding

霍夫曼不仅会告诉你，使用 64 个字符，因此每个字符只需 6 位：它还会区分频繁字符（例如（空格））和罕见字符（例如 (;)）。然后，它将创建一个代码，其中频繁出现的字符使用的位数少于较少出现的字符，从而获得更好的压缩效果（在英文文本中，每个字符通常为 4.5 位）。

霍夫曼编码是一种全方位的压缩技术，用作许多压缩算法的一部分，包括 zip。
您可以在此处找到一个仅应用一次霍夫曼压缩 (Huff0) 的演示程序，它将帮助您确定通过对示例输入使用此技术可以获得多少收益：
http://fastcompression.blogspot.com/p/huff0-range0-entropy -coders.html