返回介绍

数学基础

统计学习

深度学习

工具

Scala

四、参数估计准则

发布于 2023-07-17 23:38:26 字数 35470 浏览 0 评论 0 收藏 0

4.1 最大似然估计

  1. 假设数据集X={x1,x2,,xm}$ \mathbf X=\{\mathbf{\vec x}_1,\mathbf{\vec x}_2,\cdots,\mathbf{\vec x}_m\} $ 中的样本独立同分布地由pdata(x)$ p_{data}(\mathbf{\vec x}) $ 产生,但是该分布是未知的。

    pmodel(x;θ)$ p_{model}(\mathbf{\vec x};\theta) $ 是一族由θ$ \theta $ 参数控制的概率分布函数族,希望通过pmodel(x;θ)$ p_{model}(\mathbf{\vec x};\theta) $ 来估计真实的概率分布函数pdata(x)$ p_{data}(\mathbf{\vec x}) $ ,也就是要估计θ$ \theta $ 参数。

  2. 最大似然估计最大化数据集X$ \mathbf X $ 出现的概率。即:

    θML=argmaxθpmodel(X;θ)=argmaxθi=1mpmodel(xi;θ)
    • 由于概率的乘积会因为很多原因不便使用(如容易出现数值下溢出),因此转换为对数的形式:θML=argmaxθi=1mlogpmodel(xi;θ)$ \theta_{ML}=\arg\max_\theta\sum_{i=1}^{m}\log p_{model}(\mathbf{\vec x}_i;\theta) $ 。
    • 因为m$ m $ 与θ$ \theta $ 无关,因此它也等价于:θML=argmaxθi=1m1mlogpmodel(xi;θ)$ \theta_{ML}=\arg\max_\theta\sum_{i=1}^{m}\frac 1m \log p_{model}(\mathbf{\vec x}_i;\theta) $ 。
    • 由于数据集的经验分布为:p^data(x)=1mi=1mδ(xxi)$ \hat p_{data}(\mathbf{\vec x})=\frac 1m\sum_{i=1}^{m}\delta(\mathbf{\vec x}-\mathbf{\vec x}_i) $ ,其中δ()$ \delta(\cdot) $ 为狄拉克函数。因此:θML=argmaxθExp^datalogpmodel(x;θ)$ \theta_{ML}=\arg\max_\theta\mathbb E_{\mathbf{\vec x}\sim \hat p_{data}} \log p_{model}(\mathbf{\vec x};\theta) $ 。
  3. 考虑数据集的经验分布p^data$ \hat p_{data} $ 和真实分布函数的估计量pmodel$ p_{model} $ 之间的差异,KL散度为:

    D|KL(p^data||pmodel;θ)=Exp^data[logp^data(x)logpmodel(x;θ)]

    由于logp^data(x)$ \log \hat p_{data}(\mathbf{\vec x}) $ 与θ$ \theta $ 无关,因此要使得D|KL(p^data||pmodel;θ)$ D|_{KL}(\hat p_{data} || p_{model};\theta) $ 最小,则只需要最小化Exp^data[logpmodel(x;θ)]$ \mathbb E_{\mathbf{\vec x}\sim \hat p_{data}}[-\log p_{model}(\mathbf{\vec x};\theta)] $ 。也就是最大化Exp^datalogpmodel(x;θ)$ \mathbb E_{\mathbf{\vec x}\sim \hat p_{data}} \log p_{model}(\mathbf{\vec x};\theta) $ 。

    因此:最大似然估计就是最小化数据集的经验分布p^data$ \hat p_{data} $ 和真实分布函数的估计量pmodel$ p_{model} $ 之间的差异

  4. 最大似然估计可以扩展到估计条件概率。

    假设数据集X={x1,x2,,xm}$ \mathbf X=\{\mathbf{\vec x}_1,\mathbf{\vec x}_2,\cdots,\mathbf{\vec x}_m\} $ ,对应的观测值为Y={y1,y2,,ym}$ \mathbf Y=\{y_1,y_2,\cdots,y_m\} $ 。则条件概率的最大似然估计为:θML=argmaxθp(YX;θ)$ \theta_{ML}=\arg\max_\theta p(\mathbf Y\mid \mathbf X;\theta) $ 。

    如果样本是独立同分布的,则可以分解成:θML=argmaxθi=1mlogp(yixi;θ)$ \theta_{ML}=\arg\max_\theta\sum_{i=1}^{m}\log p(y_i\mid \mathbf{\vec x}_i;\theta) $ 。

  5. 最大似然估计有两个很好的性质:

    • 在某些条件下,最大似然估计具有一致性。这意味着当训练样本数量趋向于无穷时,参数的最大似然估计依概率收敛到参数的真实值。

      这些条件为:

      • 真实分布pdata$ p_{data} $ 必须位于分布函数族pmodel(;θ)$ p_{model}(\cdot;\theta) $ 中;否则没有估计量可以表示pdata$ p_{data} $ 。
      • 真实分布pdata$ p_{data} $ 必须对应一个θ$ \theta $ 值;否则从最大似然估计恢复出真实分布pdata$ p_{data} $ 之后,也不能解出参数θ$ \theta $ 。
    • 最大似然估计具有很好的统计效率statistic efficiency。即只需要较少的样本就能达到一个良好的泛化误差。

  6. 最大似然估计通常是机器学习中的首选估计准则。

  7. 当样本数量太少导致过拟合时,正则化技巧是最大似然的有偏估计版本。

4.2 贝叶斯估计

4.2.1 贝叶斯估计 vs 最大似然估计

  1. 在最大似然估计中,频率学派的观点是:真实参数θ$ \theta $ 是未知的固定的值,而点估计θ^$ \hat\theta $ 是随机变量。因为数据是随机生成的,所以数据集是随机的。

    在贝叶斯估计中,贝叶斯学派认为:数据集是能够直接观测到的,因此不是随机的。而真实参数θ$ \theta $ 是未知的、不确定的,因此θ$ \theta $ 是随机变量。

    • θ$ \theta $ 的已知的知识表示成先验概率分布p(θ)$ p(\theta) $ :表示在观测到任何数据之前,对于参数θ$ \theta $ 的可能取值的一个分布。

      在机器学习中,一般会选取一个相当宽泛的(熵比较高)的先验分布,如均匀分布。

    • 假设观测到一组数据X={x1,x2,,xm}$ \mathbf X=\{\mathbf{\vec x}_1,\mathbf{\vec x}_2,\cdots,\mathbf{\vec x}_m\} $ ,根据贝叶斯法则,有:

    p(θX)=p(Xθ)p(θ)p(X)
  2. 贝叶斯估计与最大似然估计有两个重要区别:

    • 贝叶斯估计预测下,一个样本的分布为:

      p(xm+1x1,x2,,xm)=p(xm+1θ)p(θx1,x2,,xm)dθ

      而最大似然估计预测下,一个样本的分布为:pmodel(x;θ)$ p_{model} (\mathbf{\vec x} ;\theta) $

    • 贝叶斯估计会使得概率密度函数向着先验概率分布的区域偏移。

  3. 当训练数据有限时,贝叶斯估计通常比最大似然估计泛化性能更好。

    当训练样本数量很大时,贝叶斯估计往往比最大似然估计计算代价较高。

4.2.2 最大后验估计

  1. 有时候希望获取参数θ$ \theta $ 的一个可能的值,而不仅仅是它的一个分布。此时可以通过最大后验估计MAP 选择后验概率最大的点:

    θMAP=argmaxθp(θX)=argmaxθ[logp(Xθ)+logp(θ)]
  2. 最大后验估计具有最大似然估计没有的优势:拥有先验知识带来的信息。该信息有助于减少估计量的方差,但是增加了偏差。

  3. 一些正则化方法可以被解释为最大后验估计,正则化项就是对应于logp(θ)$ \log p(\theta) $ 。

    • 并非所有的正则化方法都对应为某个最大后验估计。

      如:有些正则化项依赖于数据,则显然不是一个先验概率分布

  4. 最大后验估计估计MAP 提供了一个直观的方法去设计复杂的、可解释的正则化项。

    更复杂的正则化项可以通过先验分布为混合高斯分布得到(而不仅仅是一个单独的高斯分布)。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文