文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
14.1 欠完备自编码器
将输入复制到输出听起来没什么用,但我们通常不关心解码器的输出。相反,我们希望通过训练自编码器对输入进行复制而使h获得有用的特性。
从自编码器获得有用特征的一种方法是限制h的维度比x小,这种编码维度小于输入维度的自编码器称为欠完备(undercomplete)自编码器。学习欠完备的表示将强制自编码器捕捉训练数据中最显著的特征。
学习过程可以简单地描述为最小化一个损失函数
其中L是一个损失函数,惩罚g(f(x))与x的差异,如均方误差。
当解码器是线性的且L是均方误差,欠完备的自编码器会学习出与PCA相同的生成子空间。这种情况下,自编码器在训练来执行复制任务的同时学到了训练数据的主元子空间。
因此,拥有非线性编码器函数f和非线性解码器函数g的自编码器能够学习出更强大的PCA非线性推广。不幸的是,如果编码器和解码器被赋予过大的容量,自编码器会执行复制任务而捕捉不到任何有关数据分布的有用信息。从理论上说,我们可以设想这样一个自编码器,它只有一维编码,但它具有一个非常强大的非线性编码器,能够将每个训练数据x(i)表示为编码i。而解码器可以学习将这些整数索引映射回特定训练样本的值。这种特定情形不会在实际情况中发生,但它清楚地说明,如果自编码器的容量太大,那训练来执行复制任务的自编码器可能无法学习到数据集的任何有用信息。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论