熵与无损压缩率的关系

发布于 2024-07-14 02:17:41 字数 388 浏览 13 评论 0原文

从香农源编码定理我们知道压缩字符串的熵受原始字符串的熵，如下所示：

H(X) <= L < H(X) + 1/N

其中 H(X) 是源字符串的熵，N 是源字符串的长度，L 是压缩字符串的预期长度。

这必然意味着无损压缩存在限制。

我想知道的是：

我们可以直接将熵与某个预期的压缩比联系起来吗？
我们可以使用熵来找到压缩比的一些上限吗？

原文

From Shannon's Source Coding Theorem we know that the entropy of a compressed string is bounded by the entropy of the original string like so:

H(X) <= L < H(X) + 1/N

where H(X) is entropy of the source string, N is the length of the source string, and L is the expected length of the compressed string.

This necessarily means that there is a limit to lossless compression.

What I'd like to know is:

Can we directly relate entropy to some expected compression ratio?
Can we use the entropy to find some upper bound for the compression ratio?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

沉默的熊 2024-07-21 02:17:41

香农定理是根据随机数据和概率定义的。类似地，字符串的熵仅针对随机字符串定义——熵是分布的属性，而不是字符串本身的属性。因此，我们可以将香农定理非正式地重述为：

如果从给定的概率分布中随机选择一个字符串，那么我们可以获得该字符串的最佳平均压缩比由概率分布的熵率给出。

给定任何随机字符串，我可以轻松编写一个压缩算法，将该字符串压缩为 1 位，但我的算法必然会增加其他一些字符串的长度。我的压缩算法的工作原理如下：

如果输入字符串等于某个预先选择的随机字符串，则输出为 1 位字符串“0”，
否则，输出为 N+1 位字符串“1”后跟输入字符串

对应的解压算法是：

如果输入是“0”，则输出是我们之前预先选择的随机字符串
否则，输出是除了第一个输入之外的所有内容这里的关键

是我们无法写出一个算法，对于给定分布的所有字符串，平均以较高的速率压缩它们全部。字符串太多了。

如果我们有给定的字符串概率分布，我们可以计算该分布的熵率，然后根据分布随机选择一个字符串，并尝试使用any对其进行压缩算法中，压缩字符串的相对大小平均而言永远不会小于熵率。这就是香农定理所说的。

回复收藏 0 原文

桃气十足 2024-07-21 02:17:41

是的。英语的熵率通常被引用为每个字符 1.5 位（给予或接受）。典型的编码每个字符使用 8 位。因此，最大压缩文本的大小应为原始大小的 1.5/8 (~19%)。简·奥斯汀的《傲慢与偏见》纯文本版本的实际结果：orig = 701K，bzip2 = 178K，约 25%。

回复收藏 0 原文

泪冰清 2024-07-21 02:17:41

在不知道源字符串长度的情况下，您无法直接将熵与压缩比相关联，但是您可以通过求解 L 的最小可能值来了解最大压缩比的理论限制。您可以使用此限制作为度量压缩算法的效率，尽管不好的指标并不意味着已经发现甚至存在更好的算法。

所以，是的。您可以使用熵来查找理论上的最大无损压缩比，但是不行，您不能使用它来确定任何给定压缩算法的预期压缩比。

回复收藏 0 原文

旧时光的容颜 2024-07-21 02:17:41

是的！我认为这篇论文< /a> 会给你指出正确的方向。

预计到达时间 看来您需要成为 IEEE 会员才能阅读实际的论文。如果有人可以找到公开可用的资源（或在此处解释数学），那当然会更好！

回复收藏 0 原文

~没有更多了~

关于作者

追星践月

暂无简介

文章

26 人气

关注发私信

友情链接

文江博客

熵与无损压缩率的关系

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

狼性发作

美煞众生

黑凤梨

慕巷

virou

两仪

友情链接

熵与无损压缩率的关系

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

狼性发作

美煞众生

黑凤梨

慕巷

virou

两仪

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。