将 UTF-8（或其他 8 位编码）压缩到 7 位或更少

发布于 2024-08-13 06:19:25 字数 703 浏览 3 评论 0原文

我希望获取一个以 UTF-8 编码且不使用超过 128 个不同字符的文件，然后将其移至 7 位编码以节省 1/8 的空间。例如，如果我有一个 16 MB 的文本文件，仅使用前 128 个（ascii）字符，我想删除多余的位以将文件减少到 14 MB。

我该怎么做呢？

似乎没有现有的免费或专有程序可以做到这一点，所以我想我可以尝试制作一个简单的（如果效率低下的）程序。

我的基本想法是从每个字符使用的当前十六进制/十进制/二进制值到我在七位编码中拥有的 128 个值创建一个函数，然后扫描文件并将每个修改后的值写入新文件。

因此，如果文件看起来像（我将使用十进制示例，因为我尽量不必用十六进制思考）

127 254 025 212 015 015 132... 它将变成

001 002 003 004 005 005 006。

如果 127 映射到 001，254 映射到 005，等等，

不过，我不太确定一些事情。

这足以实际缩短文件大小吗？我有一种不好的预感，这只会在二进制字符串上留下一个额外的 0——11011001 可能会被映射到 01000001 而不是 1000001，而且我实际上不会节省空间。如果发生这种情况，我该如何摆脱零？
如何打开文件以二进制/十进制/十六进制读/写，而不仅仅是文本？我主要使用 Python，但如果有必要的话，我也可以混用 C。

谢谢。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

总以为 2024-08-20 06:19:25

只需使用gzip压缩，0%的努力就能节省60-70%的时间！

回复收藏 0 原文

热血少△年 2024-08-20 06:19:25

你知道文件是按字节划分的吗？因此，如果你这样做，你将在字节 1 中拥有第一个字母的 7 位，加上第二个字母的 1 位，然后在字节 2 中，你将拥有第二个字母的 6 位，以及第二个字母的 2 位。第三，依此类推。它看起来像这样：

|AAAAAAAB|BBBBBBCC|CCCCCDDD|DDDDEEEE|EEEFFFFF|FF...
 \------/ \------/ \------/ \------/ \------/
   byte     byte     byte     byte     byte

Do you understand that files are divided into bytes? Thus, if you did that, you'd have 7 bits of the first letter in bytes 1, plus 1 bit of the second letter, then in byte two, you'd have 6 bits of the second letter, and 2 bits of the third, so on. It would look like this:

|AAAAAAAB|BBBBBBCC|CCCCCDDD|DDDDEEEE|EEEFFFFF|FF...
 \------/ \------/ \------/ \------/ \------/
   byte     byte     byte     byte     byte

回复收藏 0 原文

少钕鈤記 2024-08-20 06:19:25

你的想法是在正确的轨道上，但需要一些发展。如果您对这种数据压缩感兴趣，您可能需要研究霍夫曼编码。这是一种简单的数据压缩技术，可用于许多现实情况。

我可以推荐 Mark Nelson 的《数据压缩书》，这是对数据压缩技术。

回复收藏 0 原文

枉心 2024-08-20 06:19:25

你的想法不太可能行得通。如果将字节 0x05 写入文件，则该字节将被写入，其中所有 8 位均带有前导零。要实际完成您的需要，您可以将每个 8 个字节编码为 7 个字节（因为您只需要 8*7 位来编码 8 个值）。一种方法是将 7 个值保留在其字节的 7 个低位中，并将第 8 个字节分布在 7 个 MSBit 上。

对于Python，以二进制写入模式打开文件是open(filename, 'wb')。您还必须了解如上所述的用于打包字节的位操作。

只是一个小例子：

>>> a = 0x03
>>> b = 0x59
>>> c = ((a & 0x1) << 7) | b
>>> hex(c)
'0xd9'
>>>

这会将 a 的最低位放入 c 的 MSBit 中，而 c 的其余部分是 的值b.。

我相信你可以从这里拿走它。

Your idea is unlikely to work. If you write the byte 0x05 into a file, the byte gets written, all 8 bits of it - with leading zeros. To actually accomplish what you need, you can encode each 8 bytes in 7 bytes (since you only need 8*7 bits to encode 8 values). One approach is keep the 7 values in the 7 low bits of their bytes, and spread the 8th byte over the 7 MSBits.

As for Python, opening a file in binary write mode is open(filename, 'wb'). You'll also have to learn about bit operations to pack bytes as described above.

Just a small example:

>>> a = 0x03
>>> b = 0x59
>>> c = ((a & 0x1) << 7) | b
>>> hex(c)
'0xd9'
>>>

This places the lowest bit of a into the MSBit of c and the rest of c is the value of b.

I'm sure you can take it from here.

回复收藏 0 原文

深空失忆 2024-08-20 06:19:25

“这只会在二进制字符串上留下一个额外的 0 - 11011001 可能会映射到 01000001 而不是 1000001，而且我实际上不会节省空间。”

正确的。你的计划不会起任何作用。

回复收藏 0 原文

○闲身 2024-08-20 06:19:25

你需要的是UTF-7。

编辑： UTF-7 的优点是“仅”膨胀特殊字符，因此，如果输入中特殊字符很少见，则获得的字节数比仅将 UTF-8 转换为 7 位要少得多。这就是 UTF-7 的用途。

回复收藏 0 原文

~没有更多了~

关于作者

蝶舞

暂无简介

0 文章

0 评论

22 人气

关注发私信

友情链接

文江博客

将 UTF-8（或其他 8 位编码）压缩到 7 位或更少

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（6）

关于作者

相关话题

热门标签

推荐作者

謌踐踏愛綪

开始看清了

高速公鹿

alipaysp_PLnULTzf66

热情消退

白色月光

友情链接

将 UTF-8（或其他 8 位编码）压缩到 7 位或更少

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（6）

关于作者

相关话题

热门标签

推荐作者

謌踐踏愛綪

开始看清了

高速公鹿

alipaysp_PLnULTzf66

热情消退

白色月光

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。