当前位置：文江博客话题详情

霍夫曼压缩算法

发布于 2024-07-21 22:22:19 字数 102 浏览 14 评论 0原文

我已经使用霍夫曼算法实现了文件压缩，但我遇到的问题是，要启用压缩文件的解压缩，所使用的编码树或代码本身也应该写入文件。问题是：我该怎么做？在压缩文件的开头编写编码树的最佳方法是什么？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

心作怪 2024-07-28 22:22:19

基本压缩库 (BCL) 中有一个非常标准的霍夫曼编码实现，包括一个递归函数，该函数编写树出到一个文件。看看霍夫曼。C. 它只是按顺序写出叶子，以便解码器可以重建同一棵树。

BCL 也很好，因为其中还有一些其他非常简单的压缩算法片段。如果您需要推出自己的算法，这非常方便。

回复收藏 0 原文

习ぎ惯性依靠 2024-07-28 22:22:19

首先，您是否考虑过使用标准压缩流（例如.net中的GZipStream）？

关于如何/在哪里写入数据，您可以使用 Seek 操作 Streams 位置（甚至可以通过这种方式保留空间）。如果您提前知道树的大小，则可以在该位置之后开始编写。但是您可能希望将编码树放置在实际数据之后，并确保您知道它从哪里开始。即前面预留一点空间，写压缩数据，记录位置，写树，到前面把位置写出来。

回复收藏 0 原文

新一帅帅 2024-07-28 22:22:19

假设您压缩 8 位符号（即字节）并且算法是非自适应的，最简单的方法是不存储树，而是存储值的分布。例如，通过存储找到字节 0 的频率、字节 1 的频率、...、字节 255 的频率。然后，在读回文件时，您可以重新组装树。这是最简单的解决方案，但需要最多的存储空间（例如，要覆盖大文件，每个值需要 4 个字节，即 1kb）。

您可以通过不准确存储每个字节在文件中找到的频率来优化此功能，而是将值标准化为 0..255（0 = 找到最少，...），在这种情况下，您只需要节省256字节。根据这些值重新组装树将产生相同的树。（这不会像 Edmund 所指出的那样起作用，并且有问题 759707 - 请参阅此处以获取更多链接和问题的答案）

PS：正如 Henk 所说，使用eek（）可以让您在以下位置保留空间稍后存储值的文件的开头。

回复收藏 0 原文

何以畏孤独 2024-07-28 22:22:19

大多数实现都使用规范的霍夫曼编码。您只需以紧凑的方式存储符号长度即可。实现：shcodec。
另一种方法是使用半静态霍夫曼编码（定期重新缩放），那么您不必存储任何树。

回复收藏 0 原文

陌路终见情 2024-07-28 22:22:19

不要将代码树写入文件，而是写入找到每个字符的频率，以便解压程序可以生成相同的树。

回复收藏 0 原文

苍暮颜 2024-07-28 22:22:19

最简单的解决方案是按预先顺序解析压缩树并将 256 个值写入文件的标头中。

回复收藏 0 原文

巴黎夜雨 2024-07-28 22:22:19

由于哈夫曼树中的每个节点要么是具有两个子节点的分支，要么是叶子，因此您可以使用单个位来明确表示每个节点。对于叶子，紧随其后的是该节点的 8 位。

例如，对于这棵树：

    /\
   /\ A
  B /\
   C  D

您可以存储 001[B]01[C]1[D]1[A]

（事实证明，这正是之前发布的 huffman.c 示例中发生的情况，但不是上面描述的方式）。

Since every node in a huffman tree is either a branch with two children, or a leaf, you can use a single bit to represent each node unambiguously. For a leaf, follow immediately with the 8 bits for that node.

e.g. for this tree: