19.1 把推断视作优化问题
精确推断问题可以描述为一个优化问题,有许多方法正是由此解决了推断的困难。通过近似这样一个潜在的优化问题,我们往往可以推导出近似推断算法。
为了构造这样一个优化问题,假设有一个包含可见变量ν和潜变量h的概率模型。我们希望计算观察数据的对数概率log p(ν;θ)。有时候如果边缘化消去h的操作很费时,会难以计算log p(ν;θ)。作为替代,我们可以计算一个log p(ν;θ)的下界。这个下界被称为证据下界(evidence lower bound,ELBO)。这个下界的另一个常用名称是负变分自由能(variational free energy)。具体地,这个证据下界是这样定义的:
其中q是关于h的一个任意概率分布。
因为log p(ν)和之间的距离是由KL散度来衡量的,且KL散度总是非负的,我们可以发现总是小于等于所求的对数概率。当且仅当分布q完全相等于p(h|ν)时取到等号。
令人吃惊的是,对于某些分布q,计算可以变得相当简单。通过简单的代数运算我们可以把重写成一个更加简单的形式:
这也给出了证据下界的标准定义:
对于一个选择的合适分布q来说,是容易计算的。对任意分布q的选择来说,提供了似然函数的一个下界。越好地近似p(h|ν)的分布q(h|ν),得到的下界就越紧,换言之,就是与log p(ν)更加接近。当q(h|ν)=p(h|ν)时,这个近似是完美的,也意味着。
因此我们可以将推断问题看作找一个分布q使得最大的过程。精确推断能够在包含分布p(h|ν)的函数族中搜索一个函数,完美地最大化。在本章中,我们将会讲到如何通过近似优化寻找分布q的方法来推导出不同形式的近似推断。我们可以通过限定分布q的形式或者使用并不彻底的优化方法来使得优化的过程更加高效(却更粗略),但是优化的结果是不完美的,不求彻底地最大化,而只要显著地提升。
无论我们选择什么样的分布q,始终是一个下界。我们可以通过选择一个更简单或更复杂的计算过程来得到对应的更松或更紧的下界。通过一个不彻底的优化过程或者将分布q做很强的限定(并且使用一个彻底的优化过程),我们可以获得一个很差的分布q,但是降低了计算开销。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论