数学基础
- 线性代数
- 概率论与随机过程
- 数值计算
- 蒙特卡洛方法与 MCMC 采样
- 机器学习方法概论
统计学习
深度学习
- 深度学习简介
- 深度前馈网络
- 反向传播算法
- 正则化
- 深度学习中的最优化问题
- 卷积神经网络
- CNN:图像分类
- 循环神经网络 RNN
- Transformer
- 一、Transformer [2017]
- 二、Universal Transformer [2018]
- 三、Transformer-XL [2019]
- 四、GPT1 [2018]
- 五、GPT2 [2019]
- 六、GPT3 [2020]
- 七、OPT [2022]
- 八、BERT [2018]
- 九、XLNet [2019]
- 十、RoBERTa [2019]
- 十一、ERNIE 1.0 [2019]
- 十二、ERNIE 2.0 [2019]
- 十三、ERNIE 3.0 [2021]
- 十四、ERNIE-Huawei [2019]
- 十五、MT-DNN [2019]
- 十六、BART [2019]
- 十七、mBART [2020]
- 十八、SpanBERT [2019]
- 十九、ALBERT [2019]
- 二十、UniLM [2019]
- 二十一、MASS [2019]
- 二十二、MacBERT [2019]
- 二十三、Fine-Tuning Language Models from Human Preferences [2019]
- 二十四 Learning to summarize from human feedback [2020]
- 二十五、InstructGPT [2022]
- 二十六、T5 [2020]
- 二十七、mT5 [2020]
- 二十八、ExT5 [2021]
- 二十九、Muppet [2021]
- 三十、Self-Attention with Relative Position Representations [2018]
- 三十一、USE [2018]
- 三十二、Sentence-BERT [2019]
- 三十三、SimCSE [2021]
- 三十四、BERT-Flow [2020]
- 三十五、BERT-Whitening [2021]
- 三十六、Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings [2019]
- 三十七、CERT [2020]
- 三十八、DeCLUTR [2020]
- 三十九、CLEAR [2020]
- 四十、ConSERT [2021]
- 四十一、Sentence-T5 [2021]
- 四十二、ULMFiT [2018]
- 四十三、Scaling Laws for Neural Language Models [2020]
- 四十四、Chinchilla [2022]
- 四十七、GLM-130B [2022]
- 四十八、GPT-NeoX-20B [2022]
- 四十九、Bloom [2022]
- 五十、PaLM [2022] (粗读)
- 五十一、PaLM2 [2023](粗读)
- 五十二、Self-Instruct [2022]
- 句子向量
- 词向量
- 传统CTR 预估模型
- CTR 预估模型
- 一、DSSM [2013]
- 二、FNN [2016]
- 三、PNN [2016]
- 四、DeepCrossing [2016]
- 五、Wide 和 Deep [2016]
- 六、DCN [2017]
- 七、DeepFM [2017]
- 八、NFM [2017]
- 九、AFM [2017]
- 十、xDeepFM [2018]
- 十一、ESMM [2018]
- 十二、DIN [2017]
- 十三、DIEN [2019]
- 十四、DSIN [2019]
- 十五、DICM [2017]
- 十六、DeepMCP [2019]
- 十七、MIMN [2019]
- 十八、DMR [2020]
- 十九、MiNet [2020]
- 二十、DSTN [2019]
- 二十一、BST [2019]
- 二十二、SIM [2020]
- 二十三、ESM2 [2019]
- 二十四、MV-DNN [2015]
- 二十五、CAN [2020]
- 二十六、AutoInt [2018]
- 二十七、Fi-GNN [2019]
- 二十八、FwFM [2018]
- 二十九、FM2 [2021]
- 三十、FiBiNET [2019]
- 三十一、AutoFIS [2020]
- 三十三、AFN [2020]
- 三十四、FGCNN [2019]
- 三十五、AutoCross [2019]
- 三十六、InterHAt [2020]
- 三十七、xDeepInt [2023]
- 三十九、AutoDis [2021]
- 四十、MDE [2020]
- 四十一、NIS [2020]
- 四十二、AutoEmb [2020]
- 四十三、AutoDim [2021]
- 四十四、PEP [2021]
- 四十五、DeepLight [2021]
- 图的表达
- 一、DeepWalk [2014]
- 二、LINE [2015]
- 三、GraRep [2015]
- 四、TADW [2015]
- 五、DNGR [2016]
- 六、Node2Vec [2016]
- 七、WALKLETS [2016]
- 八、SDNE [2016]
- 九、CANE [2017]
- 十、EOE [2017]
- 十一、metapath2vec [2017]
- 十二、GraphGAN [2018]
- 十三、struc2vec [2017]
- 十四、GraphWave [2018]
- 十五、NetMF [2017]
- 十六、NetSMF [2019]
- 十七、PTE [2015]
- 十八、HNE [2015]
- 十九、AANE [2017]
- 二十、LANE [2017]
- 二十一、MVE [2017]
- 二十二、PMNE [2017]
- 二十三、ANRL [2018]
- 二十四、DANE [2018]
- 二十五、HERec [2018]
- 二十六、GATNE [2019]
- 二十七、MNE [2018]
- 二十八、MVN2VEC [2018]
- 二十九、SNE [2018]
- 三十、ProNE [2019]
- Graph Embedding 综述
- 图神经网络
- 一、GNN [2009]
- 二、Spectral Networks 和 Deep Locally Connected Networks [2013]
- 三、Fast Localized Spectral Filtering On Graph [2016]
- 四、GCN [2016]
- 五、神经图指纹 [2015]
- 六、GGS-NN [2016]
- 七、PATCHY-SAN [2016]
- 八、GraphSAGE [2017]
- 九、GAT [2017]
- 十、R-GCN [2017]
- 十一、 AGCN [2018]
- 十二、FastGCN [2018]
- 十三、PinSage [2018]
- 十四、GCMC [2017]
- 十五、JK-Net [2018]
- 十六、PPNP [2018]
- 十七、VRGCN [2017]
- 十八、ClusterGCN [2019]
- 十九、LDS-GNN [2019]
- 二十、DIAL-GNN [2019]
- 二十一、HAN [2019]
- 二十二、HetGNN [2019]
- 二十三、HGT [2020]
- 二十四、GPT-GNN [2020]
- 二十五、Geom-GCN [2020]
- 二十六、Graph Network [2018]
- 二十七、GIN [2019]
- 二十八、MPNN [2017]
- 二十九、UniMP [2020]
- 三十、Correct and Smooth [2020]
- 三十一、LGCN [2018]
- 三十二、DGCNN [2018]
- 三十三、AS-GCN
- 三十四、DGI [2018]
- 三十五、DIFFPOLL [2018]
- 三十六、DCNN [2016]
- 三十七、IN [2016]
- 图神经网络 2
- 图神经网络 3
- 推荐算法(传统方法)
- 一、Tapestry [1992]
- 二、GroupLens [1994]
- 三、ItemBased CF [2001]
- 四、Amazon I-2-I CF [2003]
- 五、Slope One Rating-Based CF [2005]
- 六、Bipartite Network Projection [2007]
- 七、Implicit Feedback CF [2008]
- 八、PMF [2008]
- 九、SVD++ [2008]
- 十、MMMF 扩展 [2008]
- 十一、OCCF [2008]
- 十二、BPR [2009]
- 十三、MF for RS [2009]
- 十四、 Netflix BellKor Solution [2009]
- 推荐算法(神经网络方法 1)
- 一、MIND [2019](用于召回)
- 二、DNN For YouTube [2016]
- 三、Recommending What Video to Watch Next [2019]
- 四、ESAM [2020]
- 五、Facebook Embedding Based Retrieval [2020](用于检索)
- 六、Airbnb Search Ranking [2018]
- 七、MOBIUS [2019](用于召回)
- 八、TDM [2018](用于检索)
- 九、DR [2020](用于检索)
- 十、JTM [2019](用于检索)
- 十一、Pinterest Recommender System [2017]
- 十二、DLRM [2019]
- 十三、Applying Deep Learning To Airbnb Search [2018]
- 十四、Improving Deep Learning For Airbnb Search [2020]
- 十五、HOP-Rec [2018]
- 十六、NCF [2017]
- 十七、NGCF [2019]
- 十八、LightGCN [2020]
- 十九、Sampling-Bias-Corrected Neural Modeling [2019](检索)
- 二十、EGES [2018](Matching 阶段)
- 二十一、SDM [2019](Matching 阶段)
- 二十二、COLD [2020 ] (Pre-Ranking 模型)
- 二十三、ComiRec [2020](https://www.wenjiangs.com/doc/0b4e1736-ac78)
- 二十四、EdgeRec [2020]
- 二十五、DPSR [2020](检索)
- 二十六、PDN [2021](mathcing)
- 二十七、时空周期兴趣学习网络ST-PIL [2021]
- 推荐算法之序列推荐
- 一、FPMC [2010]
- 二、GRU4Rec [2015]
- 三、HRM [2015]
- 四、DREAM [2016]
- 五、Improved GRU4Rec [2016]
- 六、NARM [2017]
- 七、HRNN [2017]
- 八、RRN [2017]
- 九、Caser [2018]
- 十、p-RNN [2016]
- 十一、GRU4Rec Top-k Gains [2018]
- 十二、SASRec [2018]
- 十三、RUM [2018]
- 十四、SHAN [2018]
- 十五、Phased LSTM [2016]
- 十六、Time-LSTM [2017]
- 十七、STAMP [2018]
- 十八、Latent Cross [2018]
- 十九、CSRM [2019]
- 二十、SR-GNN [2019]
- 二十一、GC-SAN [2019]
- 二十二、BERT4Rec [2019]
- 二十三、MCPRN [2019]
- 二十四、RepeatNet [2019]
- 二十五、LINet(2019)
- 二十六、NextItNet [2019]
- 二十七、GCE-GNN [2020]
- 二十八、LESSR [2020]
- 二十九、HyperRec [2020]
- 三十、DHCN [2021]
- 三十一、TiSASRec [2020]
- 推荐算法(综述)
- 多任务学习
- 系统架构
- 实践方法论
- 深度强化学习 1
- 自动代码生成
工具
- CRF
- lightgbm
- xgboost
- scikit-learn
- spark
- numpy
- matplotlib
- pandas
- huggingface_transformer
- 一、Tokenizer
- 二、Datasets
- 三、Model
- 四、Trainer
- 五、Evaluator
- 六、Pipeline
- 七、Accelerate
- 八、Autoclass
- 九、应用
- 十、Gradio
Scala
- 环境搭建
- 基础知识
- 函数
- 类
- 样例类和模式匹配
- 测试和注解
- 集合 collection(一)
- 集合collection(二)
- 集成 Java
- 并发
五、调试策略
当一个机器学习系统效果不好时,很难判断效果不好的原因是算法本身,还是算法实现错误。由于各种原因,机器学习系统很难调试
大多数情况下,我们不能提前知道算法的行为
- 实际上,使用机器学习的出发点是:机器学习会发现一些我们无法发现的有用的行为
- 如果我们在一个新的分类任务上训练一个神经网络,它达到了 5% 的测试误差。我们无法直接知道:这是期望的结果,还是次优的结果?
大部分机器学习模型有多个自适应的部分
- 如果某个部分失效了,那么其他部分仍然可以自适应这种状况,并获得大致可接受的性能
- 比如在多层神经网络中,假设我们在梯度下降中对偏置更新时犯了一个错误 $ MathJax-Element-20 $ (错误原因:没有使用梯度。其中 $ MathJax-Element-21 $ 为学习率)。这个错误导致偏置在学习过程中不断减小。但是只是检查模型输出的话,这个错误并不是显而易见的。因为权重 $ MathJax-Element-44 $ 可以自适应的补偿偏置 $ MathJax-Element-23 $ 的错误
大部分神经网络的调试策略都是解决上述两个难点的一个或者两个
- 我们可以设计一种足够简单的情况,能够提前得到正确结果,判断模型预测是否与之相符
- 我们可以设计一个测试(类似于
UnitTest
),独立检查神经网络实现的各个部分
一些重要的调试方法如下:
可视化计算中模型的行为:直接观察机器学习模型运行机器任务,有助于确定其达到的量化性能数据是否看上去合理
- 仅仅评估模型性能可能是最具破坏性的错误之一,因为它会使你在系统出问题时误以为系统运行良好
可视化那些最严重的错误:大多数模型能够输出运行任务时的某种置信度(如基于
softmax
函数输出层的分类器给每个类分配了一个概率)。如果某个样本被错误的分类,而且其分类置信度很低,那么可以检查这些样本的问题根据训练和测试误差检测软件:通常我们很难确定底层软件是否正确实现,而测试和训练误差提供了一些线索
- 如果训练误差较低,而测试误差较高,那么很可能是由于算法过拟合。也有可能是软件错误,导致测试误差未能正确地度量
- 如果训练误差和测试误差都很高,那么很难确定是由于软件错误,还是由于算法模型的欠拟合。此时需要进一步测试,如下所述
监控激活函数值和梯度的直方图:可视化激活函数值和梯度的统计量往往是有用的。
- 隐单元的激活函数值告诉我们:该单元是否饱和,或者它们饱和的频率如何(如多久关闭一次,是否永远关闭,以及采用双曲正切单元时饱和的程度)
- 梯度的统计量告诉我们:梯度是否快速的增长或者快速的消失
- 参数的梯度的量级和参数的量级也有意义:我们希望参数在一个小批量更新中变化的幅度是参数量值的 1% 这样的级别(而不是 50% 或者 0.0001%,这两者要么导致参数移动太快,要么太慢)
- 如果数据是稀疏的(如自然语言),则有些参数可能是很少更新的,检测时需要注意
许多深度学习算法为每一步的结果产生了某种保证。其中包括:
目标函数值确保在算法的迭代步中不会增加
某些变量的导数在算法的每一步中都是 0
所有变量的梯度在收敛时,会变为 0
由于计算机存储浮点数的舍入误差,这些条件可能会有误差
如果违反了这些保证,那么一定是软件错误
5.1 梯度检查
比较反向传播导数和数值导数:如果我们正在使用一个软件框架或者库,那么必须定义
$ \frac{df(x)}{dx}=\frac{f(x+h)-f(x)}{h} $bprop
方法,常见的错误原因是未能正确的实现梯度表达。验证该错误的一个方法是:比较实现的自动求导和通过有限差分计算的导数或者采用中心差分法:
$ \frac{df(x)}{dx}=\frac{f(x+h)-f(x-h)}{2h} $其中 $ MathJax-Element-24 $ 必须足够大,从而确保不会由于有限精度问题产生舍入误差
如果梯度是雅克比矩阵(输出为向量,输入也是向量),则我们可以多次使用有限差分法来评估所有的偏导数
通常推荐使用中心差分法,因为根据泰勒展开,有:
$ \frac{f(x+h)-f(x)}{h}=f^\prime(x)+O(h)\\ \frac{f(x+h)-f(x-h)}{2h}=f^\prime(x)+O(h^2) $使用中心差分法的误差更小。
理论上进行梯度检查很简单,就是把解析的梯度和数值计算的梯度进行比较。但是实际操作过程中,这个过程复杂且容易出错。
使用中心化公式来计算数值梯度。
通常我们计算数值梯度时,采用:
$ \frac{df(x)}{dx}=\frac{f(x+h)-f(x)}{h} $其中 $ MathJax-Element-39 $ 为一个很小的数字,在实践过程中近似为 $ MathJax-Element-26 $ 。但是实践中证明,使用中心化公式效果更好:
$ \frac{df(x)}{dx}=\frac{f(x+h)-f(x-h)}{2h} $- 缺点:在检查梯度的每个维度时,需要计算两次损失函数
- 优点:梯度的数值求解结果会准确的多。中心化公式的近似误差为 $ MathJax-Element-27 $ ,而前一个公式的近似误差为 $ MathJax-Element-28 $
使用相对误差来比较。对于数值梯度 $ MathJax-Element-29 $ 和解析梯度 $ MathJax-Element-30 $ ,通常都是比较其相对误差而不是绝对误差来判断数值计算得到的梯度是否正确:
$ s=\frac{|f_a^\prime-f_n^\prime|}{\max(|f_a^\prime|,|f_n^\prime|)} $- 如果相对误差 $ MathJax-Element-31 $ ,则通常意味着求解梯度可能出错
- 如果相对误差 $ MathJax-Element-32 $ ,则对于有不可导点的目标函数时OK的,但是对于使用了
tanh/softmax
的目标函数,还是有点高 - 如果相对误差 $ MathJax-Element-33 $ ,则求解梯度结果正确
- 因为网络越深,相对误差就越高。因此对于一个 10 层网络的输入数据做梯度检查,那么 $ MathJax-Element-35 $ 的相对误差可能就OK了,因为误差一直在累积
使用双精度类型。当使用单精度浮点数来进行梯度检查时,即使梯度计算过程正确,相对误差也会很高(如 $ MathJax-Element-35 $ )
梯度检查时,一个导致不准确的原因是:不可导点。
不可导点是目标函数不可导的部分,由于 relu 等函数的引入导致。
解决方法是:使用更少的数据点。
- 因为数据点越少,不可导点就越少,所以在计算有限差值近似时,横跨不可导点的几率就越小。
- 另外如果你的梯度检查对 2-3 个数据点都有效,那么基本上对于整个 batch 数据进行梯度检查也没有问题。所以用少量的数据点,能让梯度检查更迅速有效
谨慎设置步长 $ MathJax-Element-39 $
- 并不是 $ MathJax-Element-39 $ 越小越好。因为当 $ MathJax-Element-39 $ 特别小时,可能会遇到数值精度问题。如果梯度检查不通过,可以尝试将 $ MathJax-Element-39 $ 调到 $ MathJax-Element-40 $ 或者 $ MathJax-Element-41 $
建议让网络预热一小段时间,等到损失函数开始下降之后在进行梯度检查
- 第一次迭代就开始梯度检查的危险在于:此时可能处于不正常的边界情况,从而掩盖了梯度没有正确实现的事实。因为梯度检查是在参数空间中的一个特定的、单独的点上进行的。即使在该点上检查成功,也不能保证梯度实现是正确的。
不要让正则化吞没数据
- 通常损失函数为:数据损失+正则化损失之和。某些情况下,损失函数的梯度主要来源于正则化部分,此时就会掩盖掉数据损失梯度的不正确实现
- 建议先关掉正则化对数据损失做单独检查,然后对正则化做单独检查
关闭 dropout 和数据 augmentation
- 梯度检查时,关闭网络中任何不确定的效果的操作,如随机 dropout,随机数据扩展。不然它们会在计算数值梯度时导致巨大误差
检查少量的维度。由于梯度可以有上百万的参数,此时只能检查其中一些维度然后假设其他维度是正确的
- 确保在所有不同的参数中都抽取一部分来梯度检查。比如 $ MathJax-Element-42 $ 这些权重矩阵中,每个矩阵抽取一部分来检查。
- 不要将所有参数拼接成一个巨大的向量,然后从这个向量中随机抽取一些维度来检查
只有在调试过程中进行梯度检验。不要在训练过程中执行梯度检验,因为非常耗计算资源。
5.2 学习过程检查
拟合极小的数据集:
当训练集上有很大的误差时,我们需要确定问题是欠拟合,还是软件错误。尝试对一个小数据子集进行训练,然后确保能达到 0 的损失值。
- 通常即使是极小模型也能保证很好的拟合一个足够小的数据集。如只有一个样本的分类数据,它可以通过正确设置输出层的偏置来拟合
- 如果分类器不能正确标定一个单样本组成的训练集、自编码器无法成功再现一个单独的样本、生成模型无法一致的生成一个单独的样本,那么很有可能是由于软件错误
- 这种测试可以推广到少量样本的小数据集上,不一定是只有一个样本的数据集
- 进行这个训练时,最好让正则化强度为0,不然它会阻止得到0的损失
- 如果不能通过这个检验,那么训练过程有问题。此时进行整个数据集的训练是没有意义的;如果能通过这个检验,那么也不保证训练过程没问题
在训练神经网络时,应该跟踪多个重要数值
这些数值输出的图表是观察训练进程的一个窗口,是直观理解不同超参数设置效果的工具
通常 $ MathJax-Element-60 $ 轴都是以周期 epoch 为单位,它衡量了训练中每个样本数据都被观察过次数的期望
- 一个周期表示每个样本数据都被观察过了一次
- 不要使用迭代次数。因为迭代次数与数据的 batch size 有关。而 batch size 可以任意设置
第一个要跟踪的数值就是损失函数
从左图中可见:
- 过低的学习率(蓝色曲线)导致算法的损失函数下降近似线性的
- 稍高一些的学习率(红色曲线) 会导致算法的损失函数看起来呈几何指数下降
- 更高一些的学习率(绿色曲线)会让损失函数下降的更快,但是它使得损失函数停留在一个较高的水平位
- 异常高的学习率(黄色曲线)会让损失函数上升
从右图可见:
- 损失函数值曲线看起来比较合理,但是 batch size 可能有点小。因为损失值的噪音很大
- 损失值的震荡程度和 batch size 有关。当 batch size=1 时,震荡会相对较大;而 batch size 为整个数据集大小时,震荡最小。因为每个梯度更新都是单调的优化损失函数
在训练分类器时,第二个要跟踪的就是验证集和训练集的准确率。从该图标可以获知模型过拟合的程度
- 训练集准确率和验证集准确率之间的空隙指明了模型过拟合的程
- 蓝色的验证集曲线相对于训练集,验证集的准确率低了很多。这说明模型有很强的过拟合。此时应该增大正则化强度或者收集更多的数据
- 绿色的验证集曲线和训练集曲线如影随形,说明你的模型容量还不够大,发生了欠拟合。此时应该通过增加参数数量让模型更大一些。
另一个应该跟踪的数值是:权重更新的相对值
假设权重为 $ MathJax-Element-44 $ ,更新的增量为 $ MathJax-Element-45 $ 。 $ MathJax-Element-46 $ 为学习率。那么权重更新的相对值为:
$ s=\frac{||\Delta \mathbf W||_F}{||\mathbf W||_F} $- 这里的梯度是一个更新的梯度。如果多个 batch ,则每个 batch 更新一次就计算一次
- 这个比例 $ MathJax-Element-59 $ 应该在 $ MathJax-Element-48 $ 左右。如果更低,说明学习率可能太小;如果更高,说明学习率可能太高
一个不正确的初始化可能让学习过程变慢,甚至停止。这个问题可以比较简单的诊断出来:
- 输出网络中所有层的激活数据和梯度分布的柱状图
- 如果看到任何奇怪的分布,都不是好兆头。如;对于使用 tanh 的神经元,我们应该看到激活数据的值在整个 [-1,1] 区间都有分布。如果看到神经元的输出都是0,或者都在饱和部分,那么就有问题
如果数据是图像像素数据,那么把第一层特征可视化会有帮助:
- 左图的特征充满了噪音,这暗示网络可能出现问题:网络没有收敛 、学习率设置不当、正则化惩罚的权重过低
- 右图特征不错,平滑、干净、种类繁多。说明训练过程良好
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论