压缩实用程序如何将文件顺序添加到压缩存档中？

发布于 2024-11-03 06:52:18 字数 306 浏览 1 评论 0原文

例如，当您 tar -zcvf 目录时，您可以看到按顺序添加到最终 gzip 文件的文件列表。

但这是怎么发生的呢？

任何最基本级别的压缩算法都使用数据中的冗余来以更好的方式表示它，从而节省空间。

但是，当添加文件 n 时，已经选择了一种方式来表示前 n - 1 文件，这可能不是最佳方式，因为直到文件 n 发现我们永远不知道最好的方法是什么。

我错过了什么吗？如果不是，这是否意味着所有这些压缩算法都选择了某种次优的数据表示？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

乖乖 2024-11-10 06:52:18

在 gzip 中，冗余仅限于特定的窗口大小（如果我没记错的话，默认为 32k）。这意味着在处理超过该窗口的未压缩数据后，您可以开始写入压缩输出。

您可以称其为“次优”，但所提供的好处，例如流式传输的能力，以及可能的错误恢复（如果窗口之间有同步标记；不确定 gzip 在这里如何工作），是值得的。

回复收藏 0 原文

独守阴晴ぅ圆缺 2024-11-10 06:52:18

简短的回答是，它不会 - gzip 增量地工作，因此文件的第一部分通常不压缩得与文件的后面部分一样多。

这样做的好处是，压缩数据本身包含构建“字典”来解压缩数据所需的内容，因此您不必显式地传输带有数据的字典。

有一些压缩方法（例如，两次霍夫曼尼压缩），您可以扫描数据以找到该特定数据的理想“字典”，然后使用它来压缩数据。但是，当您执行此操作时，通常必须将字典与数据一起传输，以便能够在接收端对其进行解压缩。

这可能是一个合理的权衡——如果您有相当高的确定性，您将使用相同的字典压缩足够的数据，那么您从改进的压缩中获得的收益可能比传输时损失的更多。字典。但存在一个问题：文件中数据的“字符”经常在同一文件内发生变化，因此在文件的某一部分中效果最好的字典对于文件的另一部分可能根本不是很好。这对于压缩包含多个组成文件的 tar 文件尤其重要，每个组成文件可能（并且很可能）具有不同的冗余。

gzip 使用的增量/动态压缩很好地解决了这个问题，因为它使用的字典会根据最近看到的数据的窗口自动/不断地“调整”自身。主要缺点是内置了一点“滞后”，因此在数据“字符”发生变化的地方，压缩率将暂时下降，直到字典有机会“调整”以适应变化。

两遍算法可以改进数据的压缩，使数据在整个压缩流中保持相似。增量算法往往可以更好地适应更多可变数据。

回复收藏 0 原文

幸福不弃 2024-11-10 06:52:18

当您说 tar -zcvf X 时，相当于说：

tar -cvf X | gzip

所以所有 gzip 看到的都是它压缩的字节，tar 和 < code>gzip 没有讨论 tar 应如何为 gzip 排序文件以最佳地压缩整个流。而且 gzip 不知道 tar 数据格式，因此它无法重新排列内容以实现更好的压缩。

When you say tar -zcvf X, that is equivalent to saying:

tar -cvf X | gzip

So all gzip sees is bunch of bytes that it compresses, tar and gzip don't have a conversation about how tar should order the files for gzip to optimially compress the entire stream. And gzip doesn't know the tar data format so it cannot rearrange things for better compression.

回复收藏 0 原文

~没有更多了~