13.5 PCA 的流形解释
线性因子模型,包括PCA和因子分析,可以理解为学习一个流形(Hinton et al.,1997)。我们可以将概率PCA定义为高概率的薄饼状区域,即一个高斯分布,沿着某些轴非常窄,就像薄饼沿着其垂直轴非常平坦,但沿着其他轴是细长的,正如薄饼在其水平轴方向是很宽的一样。图13.3解释了这种现象。PCA可以理解为将该薄饼与更高维空间中的线性流形对准。这种解释不仅适用于传统PCA,而且适用于学习矩阵W和V的任何线性自编码器,其目的是使重构的x尽可能接近于原始的x。
图13.3 平坦的高斯能够描述一个低维流形附近的概率密度。此图表示了“流形平面”上“馅饼”的上半部分,并且这个平面穿过了馅饼的中心。正交于流形方向(指向平面外的箭头方向)的方差非常小,可以被视作“噪声”,其他方向(平面内的箭头)的方差则很大,对应了“信号”以及降维数据的坐标系统
编码器表示为
编码器计算h的低维表示。从自编码器的角度来看,解码器负责计算重构:
能够最小化重构误差
的线性编码器和解码器的选择对应着V=W,,W的列形成一组标准正交基,这组基生成的子空间与协方差矩阵C
的主特征向量所生成的子空间相同。在PCA中,W的列是按照对应特征值(其全部是实数和非负数)幅度大小排序所对应的特征向量。
我们还可以发现C的特征值λi对应了x在特征向量ν(i)方向上的方差。如果x∈,h∈并且满足d<D,则(给定上述的µ,b,V,W的情况下)最佳的重构误差是
因此,如果协方差矩阵的秩为d,则特征值λd+1到λD都为0,并且重构误差为0。
此外,我们还可以证明上述解可以通过在给定正交矩阵W的情况下最大化h元素的方差,而不是最小化重构误差来获得。
从某种程度上说,线性因子模型是最简单的生成模型和学习数据表示的最简单模型。许多模型如线性分类器和线性回归模型可以扩展到深度前馈网络,而这些线性因子模型可以扩展到自编码器网络和深度概率模型,它们可以执行相同任务但具有更强大和更灵活的模型族。
————————————————————
(1) 第3.8节讨论了不相关变量和独立变量之间的差异。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论