14.8 预测稀疏分解
预测稀疏分解(predictive sparse decomposition,PSD)是稀疏编码和参数化自编码器(Kavukcuoglu et al.,2008)的混合模型。参数化编码器被训练为能预测迭代推断的输出。PSD被应用于图片和视频中对象识别的无监督特征学习(Kavukcuoglu et al.,2009,2010;Jarrett et al.,2009b;Farabet et al.,2011),在音频中也有所应用(Henaff et al.,2011)。这个模型由一个编码器f(x)和一个解码器g(h)组成,并且都是参数化的。在训练过程中,h由优化算法控制。优化过程是最小化
就像稀疏编码,训练算法交替地相对h和模型的参数最小化上述目标。相对h最小化较快,因为f(x)提供h的良好初始值以及损失函数将h约束在f(x)附近。简单的梯度下降算法只需10步左右就能获得理想的h。
PSD所使用的训练程序不是先训练稀疏编码模型,然后训练f(x)来预测稀疏编码的特征。PSD训练过程正则化解码器,使用f(x)可以推断出良好编码的参数。
预测稀疏分解是学习近似推断(learned approximate inference)的一个例子。在第19.5节中,这个话题将会进一步展开。第19章中展示的工具能让我们了解到,PSD能够被解释为通过最大化模型的对数似然下界训练有向稀疏编码的概率模型。
在PSD的实际应用中,迭代优化仅在训练过程中使用。模型被部署后,参数编码器f用于计算已经习得的特征。相比通过梯度下降推断h,计算f是很容易的。因为f是一个可微带参函数,PSD模型可堆叠,并用于初始化其他训练准则的深度网络。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论