压缩已排序的整数

发布于 2024-07-13 11:49:49 字数 142 浏览 6 评论 0原文

我正在构建一个索引，它只是连续存储在二进制文件中的几组有序 32 位整数。问题是这个文件变得非常大。我一直在考虑添加一些压缩方案，但这有点超出了我的专业知识。所以我想知道，在这种情况下哪种压缩算法最有效？此外，解压必须很快，因为该索引将用于进行弥补查找。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

旧人哭 2024-07-20 11:49:49

如果您存储的是靠近的整数（例如：1,3,4,5,9,10等...）而不是一些随机的32位整数（982346...，3487623412..等），您可以这样做一件事：

找到相邻数字之间的差异，例如 2,1,1,4,1... 等（在我们的示例中），然后霍夫曼编码 > 这个数字。

如果您直接将它们应用于您拥有的原始数字列表，我认为霍夫曼编码不起作用。

但是，如果您有一个附近数字的排序列表，那么通过对数字差异进行霍夫曼编码，您将获得非常好的压缩比，这可能比使用 Zip 库中使用的 LZW 算法更好。

无论如何，感谢您发布这个有趣的问题。

回复收藏 0 原文

尬尬 2024-07-20 11:49:49

整数是以密集方式分组还是以稀疏方式分组？

我指的是密集：

[1, 2, 3, 4, 42, 43, 78, 79, 80, 81]

我指的是：

[1, 4, 7, 9, 19, 42, 53, 55, 78, 80]

如果整数以密集方式分组，您可以压缩第一个向量以保存三个范围：

[(1, 4 ), (42, 43), (78, 81)]

这是 40% 的压缩。当然，该算法在稀疏数据上效果不佳，因为压缩数据将比原始数据多占用 100% 的空间。

回复收藏 0 原文

演多会厌 2024-07-20 11:49:49

正如您所发现的，N 个 32 位整数的排序序列没有 32*N 位的数据。这并不奇怪。假设没有重复项，对于每个排序序列有 N！包含相同整数的未排序序列。

现在，如何利用排序序列中的有限信息？许多压缩算法的压缩基于对常见输入值使用较短的位串（霍夫曼仅使用此技巧）。一些发帖者已经建议计算数字之间的差异，并压缩这些差异。他们假设这将是一系列小数字，其中许多数字是相同的。在这种情况下，大多数算法都会很好地压缩差分序列。

然而，以斐波那契数列为例。这绝对是排序的整数。 F(n) 和 F(n+1) 之间的差是 F(n-1)。因此，压缩差异序列相当于压缩序列本身 - 它根本没有帮助！

因此，我们真正需要的是输入数据的统计模型。给定序列 N[0]...N[x]，N[x+1] 的概率分布是什么？我们知道 P(N[x+1] < N[x]) = 0，因为序列已排序。提出的基于微分/霍夫曼的解决方案之所以有效，是因为它们假设 P(N[x+1] - N[x] = d) 对于较小的正 d 来说相当高，并且与 x 无关，因此它们可以使用几个位来表示微小的差异。如果您可以提供另一个模型，您可以对其进行优化。

回复收藏 0 原文