当前位置：文江博客话题详情

对于小数据块有好的压缩算法吗？（大小约2k）

发布于 2024-12-07 09:41:25 字数 472 浏览 0 评论 0原文

我有一个系统，其中一台机器以包含整数和长整型数组的对象的形式生成小块数据。这些块被传递到另一台服务器，该服务器又将它们分发到其他地方。

我想压缩这些对象，以便减少直通服务器上的内存负载。我知道像 deflate 这样的压缩算法需要构建一个字典，所以类似的东西对于这么小的数据并不能真正起作用。

是否有任何算法可以有效地压缩这样的数据？

如果没有，我可以做的另一件事是将这些块分批放入对象数组中，并在数组达到一定大小时对其进行压缩。 但我不愿意这样做，因为我必须更改现有系统中的接口。单独压缩它们不需要任何界面更改，这一切都是这样设置的。

我认为这并不重要，但目标系统是 Java。

编辑：Elias gamma 编码最适合这种情况吗？

谢谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

想你只要分分秒秒 2024-12-14 09:41:25

如果您认为将数据包减少到熵水平是最好的，您可以尝试简单的霍夫曼压缩。

为了尽早了解压缩效果，您可以通过 Huff0 传递数据包：
http://fastcompression.blogspot.com/p/huff0-range0-entropy -coders.html

它是一个简单的0阶哈夫曼编码器。所以结果才会有代表性。

对于如何有效地使用数据特征的更具体想法，建议描述一下数据包包含哪些数据以及它是如何生成的（正如您在评论中所做的那样，所以它们是整数（4字节？）和长整型（8 个字节？）），然后提供一个或几个样本。

回复收藏 0 原文

毁梦 2024-12-14 09:41:25

听起来您目前正在研究通用压缩算法。压缩小块数据的最有效方法是构建一个了解数据结构的专用压缩器。

重要的是，您需要将您使用的编码与您期望从数据中获得的值的分布相匹配：为了从 Elias gamma 编码中获得良好的结果，您需要确保您编码的值是较小的正整数......

如果同一块中的不同整数不是完全独立的（例如，如果您的数组表示时间序列），您可以使用它来改进压缩（例如，时间序列中的连续值之间的差异往往很小） 有符号整数）。但是，由于每个块都需要独立压缩，因此您将无法利用连续块之间的差异。

如果您担心您的压缩器可能会变成“扩展器”，您可以添加一个初始标志来指示数据是压缩的还是未压缩的。然后，在最坏的情况下，您的数据根本不适合您的压缩模型，您始终可以推送并发送未压缩的版本；最坏情况的开销是标志的大小......

回复收藏 0 原文

坦然微笑 2024-12-14 09:41:25

Elias Gamma 编码实际上可能会增加数据的大小。

您已经有了数字的上限（无论适合 4 字节或可能 8 字节 int/long 的数字）。此方法对数字的长度进行编码，后跟您的数字（可能不是您想要的）。如果你得到许多小值，它可能会使事情变得更小。如果您还获得较大的值，则可能会增加大小（8 字节无符号最大值将几乎变为两倍大）。

查看数据包的熵。如果接近最大值，压缩将毫无用处。否则，尝试不同的 GP 压缩器。不过，我不确定压缩和解压缩所花费的时间是否值得减少大小。

回复收藏 0 原文

风渺 2024-12-14 09:41:25

我会仔细查看压缩库的选项，例如 deflateSetDictionary() 和 http 中的标志 Z_FILTERED ://www.zlib.net/manual.html。如果您可以提前向发送方和接收方分发（或在源代码中硬连线）一个商定的字典，并且该字典代表真实数据，那么您应该获得可观的压缩节省。哎呀 - 在 Java 中查看 java.util.zip.Deflater.setDictionary() 和 FILTERED。

回复收藏 0 原文

~没有更多了~