返回介绍

数学基础

统计学习

深度学习

工具

Scala

七、信息论

发布于 2023-07-17 23:38:26 字数 4345 浏览 0 评论 0 收藏 0

  1. 信息论背后的原理是:从不太可能发生的事件中能学到更多的有用信息。

    • 发生可能性较大的事件包含较少的信息。
    • 发生可能性较小的事件包含较多的信息。
    • 独立事件包含额外的信息 。
  2. 对于事件 $ MathJax-Element-477 $ ,定义自信息self-information为: $ MathJax-Element-478 $ 。

    自信息仅仅处理单个输出,但是如果计算自信息的期望,它就是熵:

    $ H(X)=\mathbb E_{X\sim P(X)}[I(x)]=-\mathbb E_{X\sim P(X)}[\log P(x)] $

    记作 $ MathJax-Element-479 $ 。

    • 熵刻画了按照真实分布 $ MathJax-Element-515 $ 来识别一个样本所需要的编码长度的期望(即平均编码长度)。

      如:含有4个字母 (A,B,C,D) 的样本集中,真实分布 $ MathJax-Element-481 $ ,则只需要1位编码即可识别样本。

    • 对于离散型随机变量 $ MathJax-Element-499 $ ,假设其取值集合大小为 $ MathJax-Element-483 $ ,则可以证明: $ MathJax-Element-484 $ 。

  3. 对于随机变量 $ MathJax-Element-498 $ 和 $ MathJax-Element-499 $ ,条件熵 $ MathJax-Element-487 $ 表示:已知随机变量 $ MathJax-Element-499 $ 的条件下,随机变量 $ MathJax-Element-498 $ 的不确定性。

    它定义为: $ MathJax-Element-499 $ 给定条件下 $ MathJax-Element-498 $ 的条件概率分布的熵对 $ MathJax-Element-499 $ 的期望:

    $ H(Y\mid X) = \mathbb E_{X\sim P(X)}[ H(Y\mid X=x)]=-\mathbb E_{(X,Y)\sim P(X,Y)} \log P(Y\mid X) $
    • 对于离散型随机变量,有:

      $ H(Y\mid X) = \sum_xp(x) H(Y\mid X=x)=-\sum_x\sum_y p(x,y)\log p(y\mid x) $
    • 对于连续型随机变量,有:

      $ H(Y\mid X) = \int p(x) H(Y\mid X=x) dx=-\int\int p(x,y)\log p(y\mid x) dx dy $
  4. 根据定义可以证明: $ MathJax-Element-493 $ 。

    即:描述 $ MathJax-Element-499 $ 和 $ MathJax-Element-498 $ 所需要的信息是:描述 $ MathJax-Element-499 $ 所需要的信息加上给定 $ MathJax-Element-499 $ 条件下描述 $ MathJax-Element-498 $ 所需的额外信息。

  5. KL散度(也称作相对熵):对于给定的随机变量 $ MathJax-Element-499 $ ,它的两个概率分布函数 $ MathJax-Element-500 $ 和 $ MathJax-Element-501 $ 的区别可以用 KL散度来度量:

    $ D_{KL}(P||Q)=\mathbb E_{X\sim P(X)}\left[\log \frac{P(x)}{Q(x)}\right]=\mathbb E_{X\sim P(X)}\left[\log P(x) -\log Q(x) \right] $
    • KL散度非负:当它为 0 时,当且仅当 PQ是同一个分布(对于离散型随机变量),或者两个分布几乎处处相等(对于连续型随机变量)。

    • KL散度不对称: $ MathJax-Element-502 $ 。

      直观上看对于 $ MathJax-Element-503 $ ,当 $ MathJax-Element-507 $ 较大的地方, $ MathJax-Element-508 $ 也应该较大,这样才能使得 $ MathJax-Element-509 $ 较小。

      对于 $ MathJax-Element-507 $ 较小的地方, $ MathJax-Element-508 $ 就没有什么限制就能够使得 $ MathJax-Element-509 $ 较小。这就是KL散度不满足对称性的原因。

  6. 交叉熵cross-entropy: $ MathJax-Element-510 $ 。

    • 交叉熵刻画了使用错误分布 $ MathJax-Element-514 $ 来表示真实分布 $ MathJax-Element-515 $ 中的样本的平均编码长度。
    • $ MathJax-Element-513 $ 刻画了错误分布 $ MathJax-Element-514 $ 编码真实分布 $ MathJax-Element-515 $ 带来的平均编码长度的增量。
  7. 示例:假设真实分布 $ MathJax-Element-515 $ 为混合高斯分布,它由两个高斯分布的分量组成。如果希望用普通的高斯分布 $ MathJax-Element-514 $ 来近似 $ MathJax-Element-515 $ ,则有两种方案:

    $ Q_1^* = \arg\min _Q D_{KL}(P||Q)\\ Q_2^* = \arg\min _Q D_{KL}(Q||P) $

    • 如果选择 $ MathJax-Element-576 $ ,则:

      • 当 $ MathJax-Element-507 $ 较大的时候 $ MathJax-Element-508 $ 也必须较大 。如果 $ MathJax-Element-507 $ 较大时 $ MathJax-Element-508 $ 较小,则 $ MathJax-Element-599 $ 较大。
      • 当 $ MathJax-Element-507 $ 较小的时候 $ MathJax-Element-508 $ 可以较大,也可以较小。

      因此 $ MathJax-Element-576 $ 会贴近 $ MathJax-Element-507 $ 的峰值。由于 $ MathJax-Element-507 $ 的峰值有两个,因此 $ MathJax-Element-576 $ 无法偏向任意一个峰值,最终结果就是 $ MathJax-Element-576 $ 的峰值在 $ MathJax-Element-507 $ 的两个峰值之间。

    • 如果选择 $ MathJax-Element-668 $ ,则:

      • 当 $ MathJax-Element-507 $ 较小的时候, $ MathJax-Element-508 $ 必须较小。如果 $ MathJax-Element-507 $ 较小的时 $ MathJax-Element-508 $ 较大,则 $ MathJax-Element-691 $ 较大。
      • 当 $ MathJax-Element-507 $ 较大的时候, $ MathJax-Element-508 $ 可以较大,也可以较小。

      因此 $ MathJax-Element-668 $ 会贴近 $ MathJax-Element-507 $ 的谷值。最终结果就是 $ MathJax-Element-668 $ 会贴合 $ MathJax-Element-507 $ 峰值的任何一个。

    • 绝大多数场合使用 $ MathJax-Element-699 $ ,原因是:当用分布 $ MathJax-Element-514 $ 拟合 $ MathJax-Element-515 $ 时我们希望对于常见的事件,二者概率相差不大。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文