5.5 最大似然估计
之前,我们已经看过常用估计的定义,并分析了它们的性质。但是这些估计是从哪里来的呢?我们希望有些准则可以让我们从不同模型中得到特定函数作为好的估计,而不是猜测某些函数可能是好的估计,然后分析其偏差和方差。
最常用的准则是最大似然估计。
考虑一组含有m个样本的数据集,独立地由未知的真实数据生成分布pdata(x)生成。
令pmodel(x;θ)是一族由θ确定在相同空间上的概率分布。换言之,pmodel(x;θ)将任意输入x映射到实数来估计真实概率pdata(x)。
对θ的最大似然估计被定义为
多个概率的乘积会因很多原因不便于计算。例如,计算中很可能会出现数值下溢。为了得到一个便于计算的等价优化问题,我们观察到似然对数不会改变其arg max,但是将乘积转化成了便于计算的求和形式:
因为当重新缩放代价函数时arg max不会改变,我们可以除以m得到和训练数据经验分布ˆpdata相关的期望作为准则:
一种解释最大似然估计的观点是将它看作最小化训练集上的经验分布ˆpdata和模型分布之间的差异,两者之间的差异程度可以通过KL散度度量。KL散度被定义为
左边一项仅涉及数据生成过程,和模型无关。这意味着当训练模型最小化KL散度时,我们只需要最小化
当然,这和式(5.59)中最大化是相同的。
最小化KL散度其实就是在最小化分布之间的交叉熵。许多作者使用术语“交叉熵”特定表示伯努利或softmax分布的负对数似然,但那是用词不当的。任何一个由负对数似然组成的损失都是定义在训练集上的经验分布和定义在模型上的概率分布之间的交叉熵。例如,均方误差是经验分布和高斯模型之间的交叉熵。
我们可以将最大似然看作使模型分布尽可能地和经验分布ˆpdata相匹配的尝试。理想情况下,我们希望匹配真实的数据生成分布pdata,但我们无法直接知道这个分布。
虽然最优θ在最大化似然或是最小化KL散度时是相同的,但目标函数值是不一样的。在软件中,我们通常将两者都称为最小化代价函数。因此最大化似然变成了最小化负对数似然(NLL),或者等价的是最小化交叉熵。将最大化似然看作最小化KL散度的视角在这个情况下是有帮助的,因为已知KL散度最小值是零。当x取实数时,负对数似然是负值。
5.5.1 条件对数似然和均方误差
最大似然估计很容易扩展到估计条件概率P(y|x;θ),从而给定x预测y。实际上这是最常见的情况,因为这构成了大多数监督学习的基础。如果X表示所有的输入,Y表示我们观测到的目标,那么条件最大似然估计是
如果假设样本是独立同分布的,那么式(5.62)可以分解成
示例:线性回归作为最大似然 第5.1.4节介绍的线性回归,可以被看作最大似然过程。之前,我们将线性回归作为学习从输入x映射到输出的算法。从x到的映射选自最小化均方误差(我们或多或少介绍的一个标准)。现在,我们以最大似然估计的角度重新审视线性回归。我们现在希望模型能够得到条件概率p(y|x),而不只是得到一个单独的预测。想象有一个无限大的训练集,我们可能会观测到几个训练样本有相同的输入x但是不同的y。现在学习算法的目标是拟合分布p(y|x)到和x相匹配的不同的y。为了得到我们之前推导出的相同的线性回归算法,我们定义。函数预测高斯的均值。在这个例子中,我们假设方差是用户固定的某个常量σ2。这种函数形式p(y|x)会使得最大似然估计得出和之前相同的学习算法。由于假设样本是独立同分布的,条件对数似然(式(5.63))如下
其中是线性回归在第i个输入x(i)上的输出,m是训练样本的数目。对比均方误差和对数似然,
我们立刻可以看出,最大化关于w的对数似然和最小化均方误差会得到相同的参数估计w。但是对于相同的最优w,这两个准则有着不同的值。这验证了MSE可以用于最大似然估计。正如我们将看到的,最大似然估计有几个理想的性质。
5.5.2 最大似然的性质
最大似然估计最吸引人的地方在于,它被证明当样本数目m→∞时,就收敛率而言是最好的渐近估计。
在合适的条件下,最大似然估计具有一致性(参考第5.4.5节),意味着训练样本数目趋向于无穷大时,参数的最大似然估计会收敛到参数的真实值。这些条件是:
真实分布pdata必须在模型族pmodel(·;θ)中。否则,没有估计可以还原pdata。
真实分布pdata必须刚好对应一个θ值。否则,最大似然估计恢复出真实分布pdata后,也不能决定数据生成过程使用哪个θ。
除了最大似然估计,还有其他的归纳准则,其中许多共享一致估计的性质。然而,一致估计的统计效率(statistic efficiency)可能区别很大。某些一致估计可能会在固定数目的样本上获得一个较低的泛化误差,或者等价地,可能只需要较少的样本就能达到一个固定程度的泛化误差。
统计效率通常用于有参情况(parametric case)的研究中(例如线性回归)。在有参情况中,我们的目标是估计参数值(假设有可能确定真实参数),而不是函数值。一种度量和真实参数相差多少的方法是计算均方误差的期望,即计算m个从数据生成分布中出来的训练样本上的估计参数和真实参数之间差值的平方。有参均方误差估计随着m的增加而减少,当m较大时,Cramér-Rao下界(Rao,1945;Cramér,1946)表明不存在均方误差低于最大似然估计的一致估计。
因为这些原因(一致性和统计效率),最大似然通常是机器学习中的首选估计方法。当样本数目小到会发生过拟合时,正则化策略如权重衰减可用于获得训练数据有限时方差较小的最大似然有偏版本。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论