香农熵公式。帮助我的困惑

发布于 2024-07-14 22:51:38 字数 786 浏览 20 评论 0原文

我对熵公式的理解是，它用于计算表示某些数据所需的最小位数。定义时通常用不同的措辞，但之前的理解是我到现在为止所依赖的。

这是我的问题。假设我有一个由 100 个“1”后跟 100 个“0”组成的序列 = 200 位。字母表是{0,1}，熵的基数是2。符号“0”的概率是0.5，“1”的概率是0.5。所以熵就是1或者1bit来表示1bit。

但是，您可以使用 100 / 1 / 100 / 0 之类的内容对其进行游程编码，其中它是要输出的位数，后跟该位。看来我的表示比数据小。特别是如果您将 100 增加到更大的数字。

我正在使用： http://en.wikipedia.org/wiki/Information_entropy 作为参考眼下。我哪里做错了？是分配给符号的概率吗？我不认为这是错误的。或者我是否错误地理解了压缩和熵之间的联系？还要别的吗？

谢谢。

编辑

根据一些答案，我的后续行动是：您会将熵公式应用于消息的特定实例以尝试找出其信息内容吗？接受消息“aaab”并说熵为 ~0.811 是否有效？如果是，那么 1...10....0 的熵是多少，其中使用熵公式将 1 和 0 重复 n 次。答案是1吗？

是的，我知道您正在创建输入符号的随机变量，并根据您的消息猜测概率质量函数。我想确认的是熵公式没有考虑消息中符号的位置。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

骄兵必败 2024-07-21 22:51:38

或者我是否错误地理解了压缩和熵之间的联系？

你已经很接近了，但最后一个问题是错误所在。如果您能够将某些内容压缩成比其原始表示形式更小的形式，则意味着原始表示形式至少有一些冗余。 消息中的每一位实际上并没有传达 1 位信息。

因为冗余数据不会对消息的信息内容做出贡献，所以它也不会增加其熵。例如，想象一个仅返回值“0”的“随机位生成器”。这根本没有传达任何信息！（实际上，它传达了未定义的信息量，因为任何仅包含一种符号的二进制消息都需要在熵公式中除以零。）

相比之下，如果您模拟大量随机抛硬币，很难大幅减少该消息的大小。每一位都会贡献接近 1 位的熵。

当你压缩数据时，你就提取了冗余。作为交换，您必须设计一种知道如何压缩和解压缩该数据的方案，从而付出一次性熵的代价；这本身需要一些信息。

但是，您可以使用 100 / 1 / 100 / 0 之类的内容对其进行游程编码，其中它是要输出的位数，后跟该位。看来我的表示比数据小。特别是如果您将 100 增加到更大的数字。

总而言之，您可以设计一种方案来使数据编码小于原始数据，这一事实告诉您一些重要的事情。也就是说，它表示您的原始数据包含的信息非常少。

进一步阅读

要对此进行更彻底的处理，包括如何通过一些示例计算任意数字序列的熵，请查看这份简短的白皮书。

回复收藏 0 原文

将军与妓 2024-07-21 22:51:38

看看柯尔莫哥洛夫复杂度

在不丢失信息的情况下可以将字符串压缩成的最小位数。这是根据通用图灵机给出的固定但通用的解压方案定义的。

在您的特定情况下，不要将自己限制于字母表 {0,1}。对于您的示例，请使用 {0...0, 1...1} （数百个 0 和数百个 1）

回复收藏 0 原文

风启觞 2024-07-21 22:51:38

您的编码在此示例中有效，但可以设想一个同样有效的情况： 010101010101... 它将被编码为 1 / 0 / 1 / 1 / ...

熵是在可以构造的所有可能消息中测量的给定的字母表，而不仅仅是病态的例子！

回复收藏 0 原文

糖粟与秋泊 2024-07-21 22:51:38

约翰·费米内拉说得对，但我认为还有更多要说的。

香农熵是基于概率的，而概率总是情人眼里出西施。

您说过 1 和 0 的可能性相同 (0.5)。如果是这样，那么 100 个 1 后跟 100 个 0 组成的字符串的概率为 0.5^200，其中 -log(base 2) 是 200 位，正如您所期望的那样。然而，该字符串的熵（用香农术语来说）是它的信息内容乘以它的概率，或者 200 * 0.5^200，仍然是一个非常小的数字。

这很重要，因为如果您进行游程长度编码来压缩字符串，则对于该字符串，它将获得较小的长度，但对所有 2^200 个字符串进行平均，效果不佳。如果运气好的话，平均数会达到 200 左右，但也不少于。

另一方面，如果你看看你的原始字符串并说它是如此引人注目，以至于无论谁生成它都可能生成更多类似的字符串，那么你实际上是在说它的概率大于 0.5^200，所以你正在做一个不同的关于字符串生成器的原始概率结构的假设，即它的熵低于 200 位。

就我个人而言，我发现这个主题非常有趣，特别是当您研究柯尔莫哥洛夫（算法）信息时。在这种情况下，您可以将字符串的信息内容定义为可以生成该字符串的最小程序的长度。这导致了对软件工程和语言设计的各种见解。

我希望这对您有所帮助，并感谢您的提问。

回复收藏 0 原文

~没有更多了~