压缩少量数据

发布于 2024-07-10 20:52:56 字数 832 浏览 4 评论 0原文

我有一个程序，可以生成大约 80 到 150 位左右的比特流，我想对其进行压缩，因为我要将它们转换成某种 ASCII 字符串，以便人们可以传输它们。

有谁知道有一个好的、免费的位感知压缩器可以在这样的流上工作吗？我对“标准选项”的主要问题是这个流实际上应该被视为位，而不是字节，否则结构就会丢失，并且它们的开销会淹没任何增益。

添加：

我想压缩这些流的原因是因为用户将剪切+粘贴它们，可能使用诸如base64编码之类的东西，所以保存一些数据是有帮助的。

这是一个例子，供那些想看的人参考。我将添加格式以使其更易于阅读：

110 110 - This is a 6x6 grid (the maximum is 7x7, so we only need 3 bits!)

000000
011110
010010
010010
011110
000000 - This is one layout grid

000000
000000
001000
000100
000000
000000 - This is the second layout grid

现在我们列出一些片段

010 11111111 - A piece is a 3-bit colour code, then an 8-bit list of 'on / off' bits.
001 10101010 - Another bit!
001 10101010 - Another, identical bit!

我说这应该被视为“位”的原因是，当将其视为比特流时，存在明显的压缩选项（特别是，通常在'grid's），当您将其视为字节流时，它就会消失。

原文

I have a program where I generate bitstreams, of about 80 to 150 bits or so, which I would like to compress, because I'm going to turn them into some kind of ASCII string so people can transmit them around.

Does anyone know of a good, free bit-aware compressor that might work on such a stream? My main problem with the "standard options" is this stream should really be treated as bits, not bytes, else the structure is lost, and their overhead swamps any gain.

Addition:

The reason I want to compress these streams is because users are going to be cutting+pasting them, probably using something like base64 encoding, so saving some data is helpful.

Here is an example, for those who would like to see it. I'll add formatting to make it easier to read:

110 110 - This is a 6x6 grid (the maximum is 7x7, so we only need 3 bits!)

000000
011110
010010
010010
011110
000000 - This is one layout grid

000000
000000
001000
000100
000000
000000 - This is the second layout grid

Now we list some pieces

010 11111111 - A piece is a 3-bit colour code, then an 8-bit list of 'on / off' bits.
001 10101010 - Another bit!
001 10101010 - Another, identical bit!

The reason I say this should be considered 'as bits' is that there is obvious compression options when viewed as a bitstream (in particular, usually many 0s in the 'grid's), which disappear when you consider it as a byte-stream.

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

马蹄踏│碎落叶 2024-07-17 20:52:56

您希望通过压缩 150 位来实现什么目的？除非您聚合这 19b 消息中的几条，否则我不确定您希望获得什么。这是一个用户界面问题吗——您希望用户发送/接收“代码”？

base 64 编码怎么样？这将获取二进制数据并将其转换为编码字符以便于传输或输入。

回复收藏 0 原文

随心而道 2024-07-17 20:52:56

克里斯，感谢您发布这些样本。我认为游程编码是你想要的方式。实施起来应该非常简单。

http://en.wikipedia.org/wiki/Run-length_encoding

可以很好地配合所有那些连续的 0。

那么压缩这些字符串的主要原因是为了让它们更容易剪切和粘贴？说得通; 这听起来是一个有趣的项目。

如果您只是想让字符串更易于管理，那么听起来您已经准备好了。如果您尝试压缩它们，以便它们通过网络传输得更快，我认为压缩小字符串的好处可能会被其他 TCP 问题（例如 MTU 大小等）所抵消。（我没有这方面的经验，所以对最后一点持保留态度）

祝你好运！

回复收藏 0 原文

梦毁影碎の 2024-07-17 20:52:56

我的第一个建议是您查看范围编码。 <

您可以将位直接打包到 0-N

范围内（其中 N code> 是您使用的可打印字符数减 1)，然后进行简单的映射。

我的第二个建议是你研究 PNG 使用的过滤方法，并考虑是否可以使用类似的方法来使你的数据更具可压缩性。仅从两个示例布局网格中很难看出，但从您的第一个网格中似乎很可能采用某种方法，例如“根据其上方和左侧的邻居来预测每个像素，然后如果每个像素满足其要求，则将其转换为 0”预测，如果违背预测则为 1”可以为您提供一组更加统一的数据，从而实现更大的压缩。

回复收藏 0 原文

各空 2024-07-17 20:52:56

我猜想没有通用算法可以为此类数据提供很好的压缩。

最好的选择是分析数据的结构并尝试找到一种自定义压缩算法或可能自定义现有的算法（可能使用预先填充的字典或类似的东西）。

回复收藏 0 原文

浅沫记忆 2024-07-17 20:52:56

由于流很小，您可以在这里发布一些吗？

另外，您确定这些流中有足够的冗余以允许压缩吗？是否存在重复的数据块？

这个可能性不大，但在没有任何具体答案的情况下，您可能想研究一下 ROM 场景，看看在基于卡带的 RPG 游戏（如“时空之轮”或“最终幻想 III”）中文本字符串是如何压缩的。 ” 我知道这些游戏中的文本字符串是被压缩的（当时字节非常宝贵），并且破解该计划对于黑客来说是一个有趣的挑战。当你提到很多短小的字符串被压缩时，这是我想到的唯一的事情。

不过，你的根本问题可能仍然存在。我想这些 ROM 中的压缩方案会利用多个字符串中的冗余（即，如果“Timbuktu”出现在 58 个不同的字符串中），而不是在单个流中利用冗余。

回复收藏 0 原文