当前位置：文江博客话题详情

霍夫曼代码中字符的单位代码的条件？

发布于 2024-09-06 13:40:46 字数 141 浏览 9 评论 0原文

这是我在学校遇到的一个问题，但它一直困扰着我，所以我决定在这里问这个问题。

在霍夫曼压缩中，固定长度序列（字符）用可变长度序列进行编码。代码序列长度取决于源字符的频率（或概率）。

我的问题是：该字符将由一位编码的最小最高字符频率是多少？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

心清如水 2024-09-13 13:40:46

结果发现答案是0.4，即如果最高出现频率p为p >= 0.4，则保证对应字符的1位编码。换句话说，这是一个充分条件。

p≥1/3也是必要条件。即，可能存在0.4＞0.4的示例。 p >= 1/3，最短的代码为 1 位，但如果 p <= 1/3 则不会出现这种情况。 1/3。

推理这个问题的方法是查看代码树的构造方式，特别是最后 3 个幸存子树的频率。 Johnsen 中出现了一个证明，“关于二进制霍夫曼码的冗余” ，1980（不幸的是这是一个付费链接）。

回复收藏 0 原文

妞丶爷亲个 2024-09-13 13:40:46

一般来说，大约 50% 的输入符号流必须包含给定符号，霍夫曼才能将其编码为单个位。原因是，由于霍夫曼编码的工作原理（一个符号的编码不能是另一个符号的前缀），通过使用单个位对符号进行编码，您需要每个其他符号的第一位是相反的值（即，如果一个符号被编码为 0，则其他所有符号都必须以 1 开头，再加上至少一位）。由于对于任何给定的位长度，您要消除一半的可能编码空间，因此您需要找到一种方法来对至少一半的输入符号进行编码，以便实现收支平衡。

请注意，有一种特殊情况，即符号空间仅由 3 个符号组成。在这种情况下，无论哪个符号具有最大频率都将使用 1 位进行编码（因为其他两个将是未选择的第一位值的第二位变体） - 如果 2 个或更多具有同样更大的概率，任何一个都可以被编码。因此，在 3 个符号的情况下，一个符号理论上可能有 34% 的概率被编码为单个位（例如 0），而其他两个符号的概率可能为 33% 或更低概率并编码为 10 和 11。

因此，如果您考虑所有可能性，那么从技术上讲，任何 1/3 或以上的内容都可能被编码为单个位（在 3 个符号的情况下）。