前言
译者序
第1章引言
- 1.1 本书面向的读者
- 1.2 深度学习的历史趋势
第2章线性代数
- 2.1 标量、向量、矩阵和张量
- 2.2 矩阵和向量相乘
- 2.3 单位矩阵和逆矩阵
- 2.4 线性相关和生成子空间
- 2.5 范数
- 2.6 特殊类型的矩阵和向量
- 2.7 特征分解
- 2.8 奇异值分解
- 2.9 Moore-Penrose 伪逆
- 2.10 迹运算
- 2.11 行列式
- 2.12 实例：主成分分析
第3章概率与信息论
- 3.1 为什么要使用概率
- 3.2 随机变量
- 3.3 概率分布
- 3.4 边缘概率
- 3.5 条件概率
- 3.6 条件概率的链式法则
- 3.7 独立性和条件独立性
- 3.8 期望、方差和协方差
- 3.9 常用概率分布
- 3.10 常用函数的有用性质
- 3.11 贝叶斯规则
- 3.12 连续型变量的技术细节
- 3.13 信息论
- 3.14 结构化概率模型
第4章数值计算
- 4.1 上溢和下溢
- 4.2 病态条件
- 4.3 基于梯度的优化方法
- 4.4 约束优化
- 4.5 实例：线性最小二乘
第5章机器学习基础
- 5.1 学习算法
- 5.2 容量、过拟合和欠拟合
- 5.3 超参数和验证集
- 5.4 估计、偏差和方差
- 5.5 最大似然估计
- 5.6 贝叶斯统计
- 5.7 监督学习算法
- 5.8 无监督学习算法
- 5.9 随机梯度下降
- 5.10 构建机器学习算法
- 5.11 促使深度学习发展的挑战
第6章深度前馈网络
- 6.1 实例：学习 XOR
- 6.2 基于梯度的学习
- 6.3 隐藏单元
- 6.4 架构设计
- 6.5 反向传播和其他的微分算法
- 6.6 历史小记
第7章深度学习中的正则化
- 7.1 参数范数惩罚
- 7.2 作为约束的范数惩罚
- 7.3 正则化和欠约束问题
- 7.4 数据集增强
- 7.5 噪声鲁棒性
- 7.6 半监督学习
- 7.7 多任务学习
- 7.8 提前终止
- 7.9 参数绑定和参数共享
- 7.10 稀疏表示
- 7.11 Bagging 和其他集成方法
- 7.12 Dropout
- 7.13 对抗训练
- 7.14 切面距离、正切传播和流形正切分类器
第8章深度模型中的优化
- 8.1 学习和纯优化有什么不同
- 8.2 神经网络优化中的挑战
- 8.3 基本算法
- 8.4 参数初始化策略
- 8.5 自适应学习率算法
- 8.6 二阶近似方法
- 8.7 优化策略和元算法
第9章卷积网络
- 9.1 卷积运算
- 9.2 动机
- 9.3 池化
- 9.4 卷积与池化作为一种无限强的先验
- 9.5 基本卷积函数的变体
- 9.6 结构化输出
- 9.7 数据类型
- 9.8 高效的卷积算法
- 9.9 随机或无监督的特征
- 9.10 卷积网络的神经科学基础
- 9.11 卷积网络与深度学习的历史
第10章序列建模：循环和递归网络
- 10.1 展开计算图
- 10.2 循环神经网络
- 10.3 双向 RNN
- 10.4 基于编码-解码的序列到序列架构
- 10.5 深度循环网络
- 10.6 递归神经网络
- 10.7 长期依赖的挑战
- 10.8 回声状态网络
- 10.9 渗漏单元和其他多时间尺度的策略
- 10.10 长短期记忆和其他门控 RNN
- 10.11 优化长期依赖
- 10.12 外显记忆
第11章实践方法论
- 11.1 性能度量
- 11.2 默认的基准模型
- 11.3 决定是否收集更多数据
- 11.4 选择超参数
- 11.5 调试策略
- 11.6 示例：多位数字识别
第12章应用
- 12.1 大规模深度学习
- 12.2 计算机视觉
- 12.3 语音识别
- 12.4 自然语言处理
- 12.5 其他应用
第13章线性因子模型
- 13.1 概率 PCA 和因子分析
- 13.2 独立成分分析
- 13.3 慢特征分析
- 13.4 稀疏编码
- 13.5 PCA 的流形解释
第14章自编码器
- 14.1 欠完备自编码器
- 14.2 正则自编码器
- 14.3 表示能力、层的大小和深度
- 14.4 随机编码器和解码器
- 14.5 去噪自编码器详解
- 14.6 使用自编码器学习流形
- 14.7 收缩自编码器
- 14.8 预测稀疏分解
- 14.9 自编码器的应用
第15章表示学习
- 15.1 贪心逐层无监督预训练
- 15.2 迁移学习和领域自适应
- 15.3 半监督解释因果关系
- 15.4 分布式表示
- 15.5 得益于深度的指数增益
- 15.6 提供发现潜在原因的线索
第16章深度学习中的结构化概率模型
- 16.1 非结构化建模的挑战
- 16.2 使用图描述模型结构
- 16.3 从图模型中采样
- 16.4 结构化建模的优势
- 16.5 学习依赖关系
- 16.6 推断和近似推断
- 16.7 结构化概率模型的深度学习方法
第17章蒙特卡罗方法
- 17.1 采样和蒙特卡罗方法
- 17.2 重要采样
- 17.3 马尔可夫链蒙特卡罗方法
- 17.4 Gibbs 采样
- 17.5 不同的峰值之间的混合挑战
第18章直面配分函数
- 18.1 对数似然梯度
- 18.2 随机最大似然和对比散度
- 18.3 伪似然
- 18.4 得分匹配和比率匹配
- 18.5 去噪得分匹配
- 18.6 噪声对比估计
- 18.7 估计配分函数
第19章近似推断
- 19.1 把推断视作优化问题
- 19.2 期望最大化
- 19.3 最大后验推断和稀疏编码
- 19.4 变分推断和变分学习
- 19.5 学成近似推断
第20章深度生成模型
- 20.1 玻尔兹曼机
- 20.2 受限玻尔兹曼机
- 20.3 深度信念网络
- 20.4 深度玻尔兹曼机
- 20.5 实值数据上的玻尔兹曼机
- 20.6 卷积玻尔兹曼机
- 20.7 用于结构化或序列输出的玻尔兹曼机
- 20.8 其他玻尔兹曼机
- 20.9 通过随机操作的反向传播
- 20.10 有向生成网络
- 20.11 从自编码器采样
- 20.12 生成随机网络
- 20.13 其他生成方案
- 20.14 评估生成模型
- 20.15 结论

文章来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

14.5 去噪自编码器详解

发布于 2024-01-20 12:27:18 字数 7113 浏览 0 评论 0 收藏 0

去噪自编码器（denoising autoencoder，DAE）是一类接受损坏数据作为输入，并训练来预测原始未被损坏数据作为输出的自编码器。

DAE的训练过程如图14.3所示。我们引入一个损坏过程，这个条件分布代表给定数据样本x产生损坏样本的概率。自编码器则根据以下过程，从训练数据对（x,）中学习重构分布（reconstruction distribution）p_reconstruct(x｜)：

（1）从训练数据中采一个训练样本x。

（2）从C(｜x＝x)采一个损坏样本。

（3）将（x,）作为训练样本来估计自编码器的重构分布p_reconstruct(x｜)＝p_decoder(x｜h)，其中h是编码器f()的输出，p_decoder根据解码函数g(h)定义。

通常我们可以简单地对负对数似然−log p_decoder(x｜h)进行基于梯度法（如小批量梯度下降）的近似最小化。只要编码器是确定性的，去噪自编码器就是一个前馈网络，并且可以使用与其他前馈网络完全相同的方式进行训练。

图14.3　去噪自编码器代价函数的计算图。去噪自编码器被训练为从损坏的版本重构干净数据点x。这可以通过最小化损失L＝−log p_decoder(x｜h＝f())实现，其中是样本x经过损坏过程C(｜x)后得到的损坏版本。通常，分布p_decoder是因子的分布（平均参数由前馈网络g给出）

因此我们可以认为DAE是在以下期望下进行随机梯度下降：

其中是训练数据的分布。

14.5.1　得分估计

得分匹配（Hyvärinen，2005a）是最大似然的代替。它提供了概率分布的一致估计，促使模型在各个数据点x上获得与数据分布相同的得分（score）。在这种情况下，得分是一个特定的梯度场：

我们将在第18.4节中更详细地讨论得分匹配。对于现在讨论的自编码器，理解学习log p_data的梯度场是学习p_data结构的一种方式就足够了。

DAE的训练准则（条件高斯p(x｜h)）能让自编码器学到能估计数据分布得分的向量场（g(f(x))−x），这是DAE的一个重要特性，具体如图14.4所示。

图14.4　去噪自编码器被训练为将损坏的数据点映射回原始数据点x。我们将训练样本x表示为位于低维流形（粗黑线）附近的红叉。我们用灰色圆圈表示等概率的损坏过程C(｜x)。灰色箭头演示了如何将一个训练样本转换为经过此损坏过程的样本。当训练去噪自编码器最小化平方误差的平均值时，重构g(f())估计。对可能产生的原始点x的质心进行估计，所以向量g(f())−近似指向流形上最近的点。因此自编码器可以学习由绿色箭头表示的向量场g(f(x))−x。该向量场将得分估计为一个乘性因子，即重构误差均方根的平均

对一类采用高斯噪声和均方误差作为重构误差的特定去噪自编码器（具有sigmoid隐藏单元和线性重构单元）的去噪训练过程，与训练一类特定的被称为RBM的无向概率模型是等价的（Vincent，2011）。这类模型将在第20.5.1节给出更详细的介绍；对于现在的讨论，我们只需知道这个模型能显式的给出p_model(x；θ)。当RBM使用去噪得分匹配（denoising score matching）算法（Kingma and LeCun，2010a）训练时，它的学习算法与训练对应的去噪自编码器是等价的。在一个确定的噪声水平下，正则化的得分匹配不是一致估计量，相反它会恢复分布的一个模糊版本。然而，当噪声水平趋向于0且训练样本数趋向与无穷时，一致性就会恢复。我们将会在第18.5节更详细地讨论去噪得分匹配。

自编码器和RBM还存在其他联系。在RBM上应用得分匹配后，其代价函数将等价于重构误差结合类似CAE惩罚的正则项（Swersky et al.，2011）。Bengio and Delalleau（2009）指出自编码器的梯度是对RBM对比散度训练的近似。

对于连续的x，高斯损坏和重构分布的去噪准则得到的得分估计适用于一般编码器和解码器的参数化（Alain and Bengio，2013）。这意味着一个使用平方误差准则

和噪声方差为σ²的损坏

的通用编码器-解码器架构可以用来训练估计得分。图14.5展示了其中的工作原理。

图14.5　由去噪自编码器围绕一维弯曲流形学习的向量场，其中数据集中在二维空间中。每个箭头与重构向量减去自编码器的输入向量后的向量成比例，并且根据隐式估计的概率分布指向较高的概率。向量场在估计的密度函数的最大值处（在数据流形上）和密度函数的最小值处都为零。例如，螺旋臂形成局部最大值彼此连接的一维流形。局部最小值出现在两个臂间隙的中间附近。当重构误差的范数（由箭头的长度示出）很大时，在箭头的方向上移动可以显著增加概率，并且在低概率的地方大多也是如此。自编码器将这些低概率点映射到较高的概率重构。在概率最大的情况下，重构变得更准确，因此箭头会收缩。经Alain and Bengio（2013）许可转载此图

一般情况下，不能保证重构函数g(f(x))减去输入x后对应于某个函数的梯度，更不用说得分。这是早期工作（Vincent，2011）专用于特定参数化的原因（其中g(f(x))−x能通过另一个函数的导数获得）。Kamyshanska and Memisevic（2015）通过标识一类特殊的浅层自编码器家族，使g(f(x))−x对应于这个家族所有成员的一个得分，以此推广Vincent（2011）的结果。

目前为止我们所讨论的仅限于去噪自编码器如何学习表示一个概率分布。更一般的，我们可能希望使用自编码器作为生成模型，并从其分布中进行采样。这将在第20.11节中讨论。

14.5.2　历史展望

采用MLP去噪的想法可以追溯到LeCun（1987）和Gallinari et al.（1987）的工作。Behnke（2001）也曾使用循环网络对图像去噪。在某种意义上，去噪自编码器仅仅是被训练去噪的MLP。然而，“去噪自编码器”的命名指的不仅仅是学习去噪，而且可以学到一个好的内部表示（作为学习去噪的副效用）。这个想法提出较晚（Vincent et al.，2008b，2010）。学习到的表示可以被用来预训练更深的无监督网络或监督网络。与稀疏自编码器、稀疏编码、收缩自编码器等正则化的自编码器类似，DAE的动机是允许学习容量很高的编码器，同时防止在编码器和解码器学习一个无用的恒等函数。

在引入现代DAE之前，Inayoshi and Kurita（2005）探索了其中一些相同的方法和目标。他们除了在监督目标的情况下最小化重构误差之外，还在监督MLP的隐藏层注入噪声，通过引入重构误差和注入噪声提升泛化能力。然而，他们的方法基于线性编码器，因此无法学习到现代DAE能学习的强大函数族。

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

14.5 去噪自编码器详解

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。