前言
译者序
第1章引言
- 1.1 本书面向的读者
- 1.2 深度学习的历史趋势
第2章线性代数
- 2.1 标量、向量、矩阵和张量
- 2.2 矩阵和向量相乘
- 2.3 单位矩阵和逆矩阵
- 2.4 线性相关和生成子空间
- 2.5 范数
- 2.6 特殊类型的矩阵和向量
- 2.7 特征分解
- 2.8 奇异值分解
- 2.9 Moore-Penrose 伪逆
- 2.10 迹运算
- 2.11 行列式
- 2.12 实例：主成分分析
第3章概率与信息论
- 3.1 为什么要使用概率
- 3.2 随机变量
- 3.3 概率分布
- 3.4 边缘概率
- 3.5 条件概率
- 3.6 条件概率的链式法则
- 3.7 独立性和条件独立性
- 3.8 期望、方差和协方差
- 3.9 常用概率分布
- 3.10 常用函数的有用性质
- 3.11 贝叶斯规则
- 3.12 连续型变量的技术细节
- 3.13 信息论
- 3.14 结构化概率模型
第4章数值计算
- 4.1 上溢和下溢
- 4.2 病态条件
- 4.3 基于梯度的优化方法
- 4.4 约束优化
- 4.5 实例：线性最小二乘
第5章机器学习基础
- 5.1 学习算法
- 5.2 容量、过拟合和欠拟合
- 5.3 超参数和验证集
- 5.4 估计、偏差和方差
- 5.5 最大似然估计
- 5.6 贝叶斯统计
- 5.7 监督学习算法
- 5.8 无监督学习算法
- 5.9 随机梯度下降
- 5.10 构建机器学习算法
- 5.11 促使深度学习发展的挑战
第6章深度前馈网络
- 6.1 实例：学习 XOR
- 6.2 基于梯度的学习
- 6.3 隐藏单元
- 6.4 架构设计
- 6.5 反向传播和其他的微分算法
- 6.6 历史小记
第7章深度学习中的正则化
- 7.1 参数范数惩罚
- 7.2 作为约束的范数惩罚
- 7.3 正则化和欠约束问题
- 7.4 数据集增强
- 7.5 噪声鲁棒性
- 7.6 半监督学习
- 7.7 多任务学习
- 7.8 提前终止
- 7.9 参数绑定和参数共享
- 7.10 稀疏表示
- 7.11 Bagging 和其他集成方法
- 7.12 Dropout
- 7.13 对抗训练
- 7.14 切面距离、正切传播和流形正切分类器
第8章深度模型中的优化
- 8.1 学习和纯优化有什么不同
- 8.2 神经网络优化中的挑战
- 8.3 基本算法
- 8.4 参数初始化策略
- 8.5 自适应学习率算法
- 8.6 二阶近似方法
- 8.7 优化策略和元算法
第9章卷积网络
- 9.1 卷积运算
- 9.2 动机
- 9.3 池化
- 9.4 卷积与池化作为一种无限强的先验
- 9.5 基本卷积函数的变体
- 9.6 结构化输出
- 9.7 数据类型
- 9.8 高效的卷积算法
- 9.9 随机或无监督的特征
- 9.10 卷积网络的神经科学基础
- 9.11 卷积网络与深度学习的历史
第10章序列建模：循环和递归网络
- 10.1 展开计算图
- 10.2 循环神经网络
- 10.3 双向 RNN
- 10.4 基于编码-解码的序列到序列架构
- 10.5 深度循环网络
- 10.6 递归神经网络
- 10.7 长期依赖的挑战
- 10.8 回声状态网络
- 10.9 渗漏单元和其他多时间尺度的策略
- 10.10 长短期记忆和其他门控 RNN
- 10.11 优化长期依赖
- 10.12 外显记忆
第11章实践方法论
- 11.1 性能度量
- 11.2 默认的基准模型
- 11.3 决定是否收集更多数据
- 11.4 选择超参数
- 11.5 调试策略
- 11.6 示例：多位数字识别
第12章应用
- 12.1 大规模深度学习
- 12.2 计算机视觉
- 12.3 语音识别
- 12.4 自然语言处理
- 12.5 其他应用
第13章线性因子模型
- 13.1 概率 PCA 和因子分析
- 13.2 独立成分分析
- 13.3 慢特征分析
- 13.4 稀疏编码
- 13.5 PCA 的流形解释
第14章自编码器
- 14.1 欠完备自编码器
- 14.2 正则自编码器
- 14.3 表示能力、层的大小和深度
- 14.4 随机编码器和解码器
- 14.5 去噪自编码器详解
- 14.6 使用自编码器学习流形
- 14.7 收缩自编码器
- 14.8 预测稀疏分解
- 14.9 自编码器的应用
第15章表示学习
- 15.1 贪心逐层无监督预训练
- 15.2 迁移学习和领域自适应
- 15.3 半监督解释因果关系
- 15.4 分布式表示
- 15.5 得益于深度的指数增益
- 15.6 提供发现潜在原因的线索
第16章深度学习中的结构化概率模型
- 16.1 非结构化建模的挑战
- 16.2 使用图描述模型结构
- 16.3 从图模型中采样
- 16.4 结构化建模的优势
- 16.5 学习依赖关系
- 16.6 推断和近似推断
- 16.7 结构化概率模型的深度学习方法
第17章蒙特卡罗方法
- 17.1 采样和蒙特卡罗方法
- 17.2 重要采样
- 17.3 马尔可夫链蒙特卡罗方法
- 17.4 Gibbs 采样
- 17.5 不同的峰值之间的混合挑战
第18章直面配分函数
- 18.1 对数似然梯度
- 18.2 随机最大似然和对比散度
- 18.3 伪似然
- 18.4 得分匹配和比率匹配
- 18.5 去噪得分匹配
- 18.6 噪声对比估计
- 18.7 估计配分函数
第19章近似推断
- 19.1 把推断视作优化问题
- 19.2 期望最大化
- 19.3 最大后验推断和稀疏编码
- 19.4 变分推断和变分学习
- 19.5 学成近似推断
第20章深度生成模型
- 20.1 玻尔兹曼机
- 20.2 受限玻尔兹曼机
- 20.3 深度信念网络
- 20.4 深度玻尔兹曼机
- 20.5 实值数据上的玻尔兹曼机
- 20.6 卷积玻尔兹曼机
- 20.7 用于结构化或序列输出的玻尔兹曼机
- 20.8 其他玻尔兹曼机
- 20.9 通过随机操作的反向传播
- 20.10 有向生成网络
- 20.11 从自编码器采样
- 20.12 生成随机网络
- 20.13 其他生成方案
- 20.14 评估生成模型
- 20.15 结论

文江博客开发文档深度学习文章详情

文章来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

5.4 估计、偏差和方差

发布于 2024-01-20 12:27:18 字数 11709 浏览 0 评论 0 收藏 0

统计领域为我们提供了很多工具来实现机器学习目标，不仅可以解决训练集上的任务，还可以泛化。基本的概念，例如参数估计、偏差和方差，对于正式地刻画泛化、欠拟合和过拟合都非常有帮助。

5.4.1　点估计

点估计试图为一些感兴趣的量提供单个“最优”预测。一般地，感兴趣的量可以是单个参数，或是某些参数模型中的一个向量参数，例如第5.1.4节线性回归中的权重，但是也有可能是整个函数。

为了区分参数估计和真实值，我们习惯将参数θ的点估计表示为。

令是m个独立同分布（i.i.d.）的数据点。点估计（point estimator）或统计量（statistics）是这些数据的任意函数：

这个定义不要求g返回一个接近真实θ的值，或者g的值域恰好是θ的允许取值范围。点估计的定义非常宽泛，给了估计量的设计者极大的灵活性。虽然几乎所有的函数都可以称为估计量，但是一个良好的估计量的输出会接近生成训练数据的真实参数θ。

现在，我们采取频率派在统计上的观点。换言之，我们假设真实参数θ是固定但未知的，而点估计是数据的函数。由于数据是随机过程采样出来的，数据的任何函数都是随机的，因此是一个随机变量。

点估计也可以指输入和目标变量之间关系的估计，我们将这种类型的点估计称为函数估计。

函数估计　有时我们会关注函数估计（或函数近似）。这时我们试图从输入向量x预测变量y。假设有一个函数f(x)表示y和x之间的近似关系。例如，我们可能假设，其中是y中未能从x预测的一部分。在函数估计中，我们感兴趣的是用模型估计去近似f，或者估计。函数估计和估计参数θ是一样的，函数估计是函数空间中的一个点估计。线性回归示例（第5.1.4节中讨论的）和多项式回归示例（第5.2节中讨论的）都既可以被解释为估计参数w，又可以被解释为估计从x到y的函数映射。

现在我们回顾点估计最常研究的性质，并探讨这些性质说明了估计的哪些特点。

5.4.2　偏差

估计的偏差被定义为

其中期望作用在所有数据（看作从随机变量采样得到的）上，θ是用于定义数据生成分布的θ的真实值。如果，那么估计量被称为是无偏（unbiased），这意味着。如果，那么估计量被称为是渐近无偏（asymptotically unbiased），这意味着。

示例：伯努利分布　考虑一组服从均值为θ的伯努利分布的独立同分布的样本：

这个分布中参数θ的常用估计量是训练样本的均值：

判断这个估计量是否有偏，我们将式（5.22）代入式（5.20）：

因为bias()=0，我们称估计是无偏的。

示例：均值的高斯分布估计　现在，考虑一组独立同分布的样本服从高斯分布，其中。回顾高斯概率密度函数如下：

高斯均值参数的常用估计量被称为样本均值（sample mean）：

判断样本均值是否有偏，我们再次计算它的期望：

因此我们发现样本均值是高斯均值参数的无偏估计量。

示例：高斯分布方差估计　本例中，我们比较高斯分布方差参数σ²的两个不同估计。我们探讨是否有一个是有偏的。

我们考虑的第一个方差估计被称为样本方差（sample variance）：

其中是样本均值。更形式化地，我们对计算感兴趣

我们首先估计项：

回到式（5.37），我们可以得出的偏差是。因此样本方差是有偏估计。

无偏样本方差（unbiased sample variance）估计：

提供了另一种可选方法。正如名字所言，这个估计是无偏的。换言之，我们会发现：

我们有两个估计量：一个是有偏的，另一个是无偏的。尽管无偏估计显然是令人满意的，但它并不总是“最好”的估计。我们将看到，经常会使用其他具有重要性质的有偏估计。

5.4.3　方差和标准差

我们有时会考虑估计量的另一个性质是它作为数据样本的函数，期望的变化程度是多少。正如我们可以计算估计量的期望来决定它的偏差，我们也可以计算它的方差。估计量的方差（variance）就是一个方差：

其中随机变量是训练集。另外，方差的平方根被称为标准差（standard error），记作SE（）。

估计量的方差或标准差告诉我们，当独立地从潜在的数据生成过程中重采样数据集时，如何期望估计的变化。正如我们希望估计的偏差较小，我们也希望其方差较小。

当我们使用有限的样本计算任何统计量时，真实参数的估计都是不确定的，在这个意义下，从相同的分布得到其他样本时，它们的统计量也会不一样。任何方差估计量的期望程度是我们想量化的误差的来源。

均值的标准差被记作

其中σ²是样本x⁽ⁱ⁾的真实方差。标准差通常被记作σ。可惜，样本方差的平方根和方差无偏估计的平方根都不是标准差的无偏估计。这两种计算方法都倾向于低估真实的标准差，但仍用于实际中。相较而言，方差无偏估计的平方根较少被低估。对于较大的m，这种近似非常合理。

均值的标准差在机器学习实验中非常有用。我们通常用测试集样本的误差均值来估计泛化误差。测试集中样本的数量决定了这个估计的精确度。中心极限定理告诉我们均值会接近一个高斯分布，我们可以用标准差计算出真实期望落在选定区间的概率。例如，以均值为中心的95％置信区间是

以上区间是基于均值和方差的高斯分布。在机器学习实验中，我们通常说算法A比算法B好，是指算法A的误差的95％置信区间的上界小于算法B的误差的95％置信区间的下界。

示例：伯努利分布　我们再次考虑从伯努利分布（回顾中独立同分布采样出来的一组样本。这次我们关注估计的方差：

估计量方差的下降速率是关于数据集样本数目m的函数。这是常见估计量的普遍性质，在探讨一致性（参见第5.4.5节）时，我们会继续讨论。

5.4.4　权衡偏差和方差以最小化均方误差

偏差和方差度量着估计量的两个不同误差来源。偏差度量着偏离真实函数或参数的误差期望，而方差度量着数据上任意特定采样可能导致的估计期望的偏差。

当我们可以在一个偏差更大的估计和一个方差更大的估计中进行选择时，会发生什么呢？我们该如何选择？例如，想象我们希望近似图5.2中的函数，如果只可以选择一个偏差较大的估计或一个方差较大的估计，我们该如何选择呢？

判断这种权衡最常用的方法是交叉验证。经验上，交叉验证在真实世界的许多任务中都非常成功。另外，我们也可以比较这些估计的均方误差（mean squared error，MSE）：

MSE度量着估计和真实参数θ之间平方误差的总体期望偏差。如式（5.54）所示，MSE估计包含了偏差和方差。理想的估计具有较小的MSE或是在检查中会稍微约束它们的偏差和方差。

偏差和方差的关系与机器学习容量、欠拟合和过拟合的概念紧密相联。用MSE度量泛化误差（偏差和方差对于泛化误差都是有意义的）时，增加容量会增加方差，降低偏差。如图5.6所示，我们再次在关于容量的函数中看到泛化误差的U形曲线。

图5.6　当容量增大（x轴）时，偏差（用点表示）随之减小，而方差（虚线）随之增大，使得泛化误差（加粗曲线）产生了另一种U形。如果我们沿着轴改变容量，会发现最佳容量，当容量小于最佳容量会呈现欠拟合，大于时导致过拟合。这种关系与第5.2节以及图5.3中讨论的容量、欠拟合和过拟合之间的关系类似

5.4.5　一致性

目前我们已经探讨了固定大小训练集下不同估计量的性质。通常，我们也会关注训练数据增多后估计量的效果。特别地，我们希望当数据集中数据点的数量m增加时，点估计会收敛到对应参数的真实值。更形式化地，我们想要

符号plim表示依概率收敛，即对于任意的＞0，当m→∞时，有。式（5.55）表示的条件被称为一致性（consistency）。有时它是指弱一致性，强一致性是指几乎必然（almost sure）从收敛到θ。几乎必然收敛（almost sure convergence）是指当p(lim_m→∞x^(m)=x)=1时，随机变量序列x⁽¹⁾，x⁽²⁾，···收敛到x。

一致性保证了估计量的偏差会随数据样本数目的增多而减少。然而，反过来是不正确的——渐近无偏并不意味着一致性。例如，考虑用包含m个样本的数据集{x⁽¹⁾，···，x^(m)}估计正态分布的均值参数µ。我们可以使用数据集的第一个样本x⁽¹⁾作为无偏估计量：。在该情况下，，所以不管观测到多少数据点，该估计量都是无偏的。然而，这不是一个一致估计，因为它不满足当m→∞时，。