前言
译者序
第1章引言
- 1.1 本书面向的读者
- 1.2 深度学习的历史趋势
第2章线性代数
- 2.1 标量、向量、矩阵和张量
- 2.2 矩阵和向量相乘
- 2.3 单位矩阵和逆矩阵
- 2.4 线性相关和生成子空间
- 2.5 范数
- 2.6 特殊类型的矩阵和向量
- 2.7 特征分解
- 2.8 奇异值分解
- 2.9 Moore-Penrose 伪逆
- 2.10 迹运算
- 2.11 行列式
- 2.12 实例：主成分分析
第3章概率与信息论
- 3.1 为什么要使用概率
- 3.2 随机变量
- 3.3 概率分布
- 3.4 边缘概率
- 3.5 条件概率
- 3.6 条件概率的链式法则
- 3.7 独立性和条件独立性
- 3.8 期望、方差和协方差
- 3.9 常用概率分布
- 3.10 常用函数的有用性质
- 3.11 贝叶斯规则
- 3.12 连续型变量的技术细节
- 3.13 信息论
- 3.14 结构化概率模型
第4章数值计算
- 4.1 上溢和下溢
- 4.2 病态条件
- 4.3 基于梯度的优化方法
- 4.4 约束优化
- 4.5 实例：线性最小二乘
第5章机器学习基础
- 5.1 学习算法
- 5.2 容量、过拟合和欠拟合
- 5.3 超参数和验证集
- 5.4 估计、偏差和方差
- 5.5 最大似然估计
- 5.6 贝叶斯统计
- 5.7 监督学习算法
- 5.8 无监督学习算法
- 5.9 随机梯度下降
- 5.10 构建机器学习算法
- 5.11 促使深度学习发展的挑战
第6章深度前馈网络
- 6.1 实例：学习 XOR
- 6.2 基于梯度的学习
- 6.3 隐藏单元
- 6.4 架构设计
- 6.5 反向传播和其他的微分算法
- 6.6 历史小记
第7章深度学习中的正则化
- 7.1 参数范数惩罚
- 7.2 作为约束的范数惩罚
- 7.3 正则化和欠约束问题
- 7.4 数据集增强
- 7.5 噪声鲁棒性
- 7.6 半监督学习
- 7.7 多任务学习
- 7.8 提前终止
- 7.9 参数绑定和参数共享
- 7.10 稀疏表示
- 7.11 Bagging 和其他集成方法
- 7.12 Dropout
- 7.13 对抗训练
- 7.14 切面距离、正切传播和流形正切分类器
第8章深度模型中的优化
- 8.1 学习和纯优化有什么不同
- 8.2 神经网络优化中的挑战
- 8.3 基本算法
- 8.4 参数初始化策略
- 8.5 自适应学习率算法
- 8.6 二阶近似方法
- 8.7 优化策略和元算法
第9章卷积网络
- 9.1 卷积运算
- 9.2 动机
- 9.3 池化
- 9.4 卷积与池化作为一种无限强的先验
- 9.5 基本卷积函数的变体
- 9.6 结构化输出
- 9.7 数据类型
- 9.8 高效的卷积算法
- 9.9 随机或无监督的特征
- 9.10 卷积网络的神经科学基础
- 9.11 卷积网络与深度学习的历史
第10章序列建模：循环和递归网络
- 10.1 展开计算图
- 10.2 循环神经网络
- 10.3 双向 RNN
- 10.4 基于编码-解码的序列到序列架构
- 10.5 深度循环网络
- 10.6 递归神经网络
- 10.7 长期依赖的挑战
- 10.8 回声状态网络
- 10.9 渗漏单元和其他多时间尺度的策略
- 10.10 长短期记忆和其他门控 RNN
- 10.11 优化长期依赖
- 10.12 外显记忆
第11章实践方法论
- 11.1 性能度量
- 11.2 默认的基准模型
- 11.3 决定是否收集更多数据
- 11.4 选择超参数
- 11.5 调试策略
- 11.6 示例：多位数字识别
第12章应用
- 12.1 大规模深度学习
- 12.2 计算机视觉
- 12.3 语音识别
- 12.4 自然语言处理
- 12.5 其他应用
第13章线性因子模型
- 13.1 概率 PCA 和因子分析
- 13.2 独立成分分析
- 13.3 慢特征分析
- 13.4 稀疏编码
- 13.5 PCA 的流形解释
第14章自编码器
- 14.1 欠完备自编码器
- 14.2 正则自编码器
- 14.3 表示能力、层的大小和深度
- 14.4 随机编码器和解码器
- 14.5 去噪自编码器详解
- 14.6 使用自编码器学习流形
- 14.7 收缩自编码器
- 14.8 预测稀疏分解
- 14.9 自编码器的应用
第15章表示学习
- 15.1 贪心逐层无监督预训练
- 15.2 迁移学习和领域自适应
- 15.3 半监督解释因果关系
- 15.4 分布式表示
- 15.5 得益于深度的指数增益
- 15.6 提供发现潜在原因的线索
第16章深度学习中的结构化概率模型
- 16.1 非结构化建模的挑战
- 16.2 使用图描述模型结构
- 16.3 从图模型中采样
- 16.4 结构化建模的优势
- 16.5 学习依赖关系
- 16.6 推断和近似推断
- 16.7 结构化概率模型的深度学习方法
第17章蒙特卡罗方法
- 17.1 采样和蒙特卡罗方法
- 17.2 重要采样
- 17.3 马尔可夫链蒙特卡罗方法
- 17.4 Gibbs 采样
- 17.5 不同的峰值之间的混合挑战
第18章直面配分函数
- 18.1 对数似然梯度
- 18.2 随机最大似然和对比散度
- 18.3 伪似然
- 18.4 得分匹配和比率匹配
- 18.5 去噪得分匹配
- 18.6 噪声对比估计
- 18.7 估计配分函数
第19章近似推断
- 19.1 把推断视作优化问题
- 19.2 期望最大化
- 19.3 最大后验推断和稀疏编码
- 19.4 变分推断和变分学习
- 19.5 学成近似推断
第20章深度生成模型
- 20.1 玻尔兹曼机
- 20.2 受限玻尔兹曼机
- 20.3 深度信念网络
- 20.4 深度玻尔兹曼机
- 20.5 实值数据上的玻尔兹曼机
- 20.6 卷积玻尔兹曼机
- 20.7 用于结构化或序列输出的玻尔兹曼机
- 20.8 其他玻尔兹曼机
- 20.9 通过随机操作的反向传播
- 20.10 有向生成网络
- 20.11 从自编码器采样
- 20.12 生成随机网络
- 20.13 其他生成方案
- 20.14 评估生成模型
- 20.15 结论

文江博客开发文档深度学习文章详情

文章来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

8.3 基本算法

发布于 2024-01-20 12:27:18 字数 10242 浏览 0 评论 0 收藏 0

之前我们已经介绍了梯度下降（第4.3节），即沿着整个训练集的梯度方向下降。这可以使用随机梯度下降很大程度地加速，沿着随机挑选的小批量数据的梯度下降方向，就像第5.9节和第8.1.3节中讨论的一样。

8.3.1　随机梯度下降

随机梯度下降（SGD）及其变种很可能是一般机器学习中应用最多的的优化算法，特别是在深度学习中。如第8.1.3节中所讨论的，按照数据生成分布抽取m个小批量（独立同分布的）样本，通过计算它们梯度均值，我们可以得到梯度的无偏估计。

算法8.1展示了如何沿着这个梯度的估计下降。

算法8.1　随机梯度下降（SGD）在第k个训练迭代的更新。

Require：学习率

Require：初始参数θ

while停止准则未满足do

从训练集中采包含m个样本的小批量，其中x⁽ⁱ⁾对应目标为y⁽ⁱ⁾。

计算梯度估计：

应用更新：

end while

SGD算法中的一个关键参数是学习率。之前，我们介绍的SGD使用固定的学习率。在实践中，有必要随着时间的推移逐渐降低学习率，因此我们将第k步迭代的学习率记作。

这是因为SGD中梯度估计引入的噪声源（m个训练样本的随机采样）并不会在极小点处消失。相比之下，当我们使用批量梯度下降到达极小点时，整个代价函数的真实梯度会变得很小，之后为0，因此批量梯度下降可以使用固定的学习率。保证SGD收敛的一个充分条件是

且

实践中，一般会线性衰减学习率直到第τ次迭代：

其中。在τ步迭代之后，一般使保持常数。

学习率可通过试验和误差来选取，通常最好的选择方法是监测目标函数值随时间变化的学习曲线。与其说是科学，这更像是一门艺术，我们应该谨慎地参考关于这个问题的大部分指导。使用线性策略时，需要选择的参数为和τ。通常τ被设为需要反复遍历训练集几百次的迭代次数。通常应设为大约的1％。主要问题是如何设置。若太大，学习曲线将会剧烈振荡，代价函数值通常会明显增加。温和的振荡是良好的，容易在训练随机代价函数（例如使用Dropout的代价函数）时出现。如果学习率太小，那么学习过程会很缓慢。如果初始学习率太低，那么学习可能会卡在一个相当高的代价值。通常，就总训练时间和最终代价值而言，最优初始学习率的效果会好于大约迭代100次后最佳的效果。因此，通常最好是检测最早的几轮迭代，选择一个比在效果上表现最佳的学习率更大的学习率，但又不能太大导致严重的震荡。

SGD及相关的小批量亦或更广义的基于梯度优化的在线学习算法，一个重要的性质是每一步更新的计算时间不依赖训练样本数目的多寡。即使训练样本数目非常大时，它们也能收敛。对于足够大的数据集，SGD可能会在处理整个训练集之前就收敛到最终测试集误差的某个固定容差范围内。

研究优化算法的收敛率，一般会衡量额外误差（excess error），即当前代价函数超出最低可能代价的量。SGD应用于凸问题时，k步迭代后的额外误差量级是，在强凸情况下是。除非假定额外的条件，否则这些界限不能进一步改进。批量梯度下降在理论上比随机梯度下降有更好的收敛率。然而，Cramér-Rao界限（Cramér，1946；Rao，1945）指出，泛化误差的下降速度不会快于）。Bottou and Bousquet（2008b）因此认为对于机器学习任务，不值得探寻收敛快于）的优化算法——更快的收敛可能对应着过拟合。此外，渐近分析掩盖了随机梯度下降在少量更新步之后的很多优点。对于大数据集，SGD只需非常少量样本计算梯度从而实现初始快速更新，远远超过了其缓慢的渐近收敛。本章剩余部分介绍的大多数算法在实践中都受益于这种性质，但是损失了常数倍）的渐近分析。我们也可以在学习过程中逐渐增大小批量的大小，以此权衡批量梯度下降和随机梯度下降两者的优点。

了解SGD更多的信息，请查看Bottou（1998）。

8.3.2　动量

虽然随机梯度下降仍然是非常受欢迎的优化方法，但其学习过程有时会很慢。动量方法（Polyak，1964）旨在加速学习，特别是处理高曲率、小但一致的梯度，或是带噪声的梯度。动量算法积累了之前梯度指数级衰减的移动平均，并且继续沿该方向移动。动量的效果如图8.5所示。

从形式上看，动量算法引入了变量ν充当速度角色——它代表参数在参数空间移动的方向和速率。速度被设为负梯度的指数衰减平均。名称动量（momentum）来自物理类比，根据牛顿运动定律，负梯度是移动参数空间中粒子的力。动量在物理学上定义为质量乘以速度。在动量学习算法中，我们假设是单位质量，因此速度向量ν也可以看作粒子的动量。超参数α∈［0，1）决定了之前梯度的贡献衰减得有多快。更新规则如下：

速度ν累积了梯度元素。相对于，越大，之前梯度对现在方向的影响也越大。带动量的SGD算法如算法8.2所示。

图8.5　动量的主要目的是解决两个问题：Hessian矩阵的病态条件和随机梯度的方差。我们通过此图说明动量如何克服这两个问题的第一个。等高线描绘了一个二次损失函数（具有病态条件的Hessian矩阵）。横跨轮廓的红色路径表示动量学习规则所遵循的路径，它使该函数最小化。在该路径的每个步骤画一个箭头，表示梯度下降将在该点采取的步骤。可以看到，一个病态条件的二次目标函数看起来像一个长而窄的山谷或具有陡峭边的峡谷。动量正确地纵向穿过峡谷，而普通的梯度步骤则会浪费时间在峡谷的窄轴上来回移动。比较图4.6，它也显示了没有动量的梯度下降的行为

算法8.2　使用动量的随机梯度下降（SGD）。

Require：学习率，动量参数α

Require：初始参数θ，初始速度ν

while没有达到停止准则do

从训练集中采包含m个样本的小批量，对应目标为。

计算梯度估计：

计算速度更新：

应用更新：

end while

之前，步长只是梯度范数乘以学习率。现在，步长取决于梯度序列的大小和排列。当许多连续的梯度指向相同的方向时，步长最大。如果动量算法总是观测到梯度g，那么它会在方向−g上不停加速，直到达到最终速度，其中步长大小为

因此将动量的超参数视为有助于理解。例如，α＝0.9对应着最大速度10倍于梯度下降算法。

在实践中，α的一般取值为0.5、0.9和0.99。和学习率一样，α也会随着时间不断调整。一般初始值是一个较小的值，随后会慢慢变大。随着时间推移调整α没有收缩重要。

我们可以将动量算法视为模拟连续时间下牛顿动力学下的粒子。这种物理类比有助于直觉上理解动量和梯度下降算法是如何表现的。

粒子在任意时间点的位置由θ(t)给定。粒子会受到净力f(t)。该力会导致粒子加速：

与其将其视为位置的二阶微分方程，我们不如引入表示粒子在时间t处速度的变量ν(t)，将牛顿动力学重写为一阶微分方程：

由此，动量算法包括通过数值模拟求解微分方程。求解微分方程的一个简单数值方法是欧拉方法，通过在每个梯度方向上小且有限的步来简单模拟该等式定义的动力学。

这解释了动量更新的基本形式，但具体什么是力呢？力正比于代价函数的负梯度。该力推动粒子沿着代价函数表面下坡的方向移动。梯度下降算法基于每个梯度简单地更新一步，而使用动量算法的牛顿方案则使用该力改变粒子的速度。我们可以将粒子视作在冰面上滑行的冰球。每当它沿着表面最陡的部分下降时，它会累积继续在该方向上滑行的速度，直到其开始向上滑动为止。

另一个力也是必要的。如果代价函数的梯度是唯一的力，那么粒子可能永远不会停下来。想象一下，假设理想情况下冰面没有摩擦，一个冰球从山谷的一端下滑，上升到另一端，永远来回振荡。要解决这个问题，我们添加另一个正比于−ν(t)的力。在物理术语中，此力对应于黏性阻力，就像粒子必须通过一个抵抗介质，如糖浆。这会导致粒子随着时间推移逐渐失去能量，最终收敛到局部极小点。

为什么要特别使用−ν(t)和黏性阻力呢？部分原因是因为−ν(t)在数学上的便利——速度的整数幂很容易处理。然而，其他物理系统具有基于速度的其他整数幂的其他类型的阻力。例如，颗粒通过空气时会受到正比于速度平方的湍流阻力，而颗粒沿着地面移动时会受到恒定大小的摩擦力。这些选择都不合适。湍流阻力正比于速度的平方，在速度很小时会很弱，不够强到使粒子停下来。非零值初始速度的粒子仅受到湍流阻力，会从初始位置永远地移动下去，和初始位置的距离大概正比于O(log t)，因此我们必须使用速度较低幂次的力。如果幂次为零，相当于干摩擦，那么力太强了。当代价函数的梯度表示的力很小但非零时，由于摩擦导致的恒力会使得粒子在达到局部极小点之前就停下来。黏性阻力避免了这两个问题——它足够弱，可以使梯度引起的运动直到达到最小，但又足够强，使得坡度不够时可以阻止运动。

8.3.3　Nesterov动量

受Nesterov加速梯度算法（Nesterov，1983，2004）启发，Sutskever et al.（2013）提出了动量算法的一个变种。这种情况的更新规则如下：