数学基础
- 线性代数
- 概率论与随机过程
- 数值计算
- 蒙特卡洛方法与 MCMC 采样
- 机器学习方法概论
统计学习
深度学习
- 深度学习简介
- 深度前馈网络
- 反向传播算法
- 正则化
- 深度学习中的最优化问题
- 卷积神经网络
- CNN:图像分类
- 循环神经网络 RNN
- Transformer
- 一、Transformer [2017]
- 二、Universal Transformer [2018]
- 三、Transformer-XL [2019]
- 四、GPT1 [2018]
- 五、GPT2 [2019]
- 六、GPT3 [2020]
- 七、OPT [2022]
- 八、BERT [2018]
- 九、XLNet [2019]
- 十、RoBERTa [2019]
- 十一、ERNIE 1.0 [2019]
- 十二、ERNIE 2.0 [2019]
- 十三、ERNIE 3.0 [2021]
- 十四、ERNIE-Huawei [2019]
- 十五、MT-DNN [2019]
- 十六、BART [2019]
- 十七、mBART [2020]
- 十八、SpanBERT [2019]
- 十九、ALBERT [2019]
- 二十、UniLM [2019]
- 二十一、MASS [2019]
- 二十二、MacBERT [2019]
- 二十三、Fine-Tuning Language Models from Human Preferences [2019]
- 二十四 Learning to summarize from human feedback [2020]
- 二十五、InstructGPT [2022]
- 二十六、T5 [2020]
- 二十七、mT5 [2020]
- 二十八、ExT5 [2021]
- 二十九、Muppet [2021]
- 三十、Self-Attention with Relative Position Representations [2018]
- 三十一、USE [2018]
- 三十二、Sentence-BERT [2019]
- 三十三、SimCSE [2021]
- 三十四、BERT-Flow [2020]
- 三十五、BERT-Whitening [2021]
- 三十六、Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings [2019]
- 三十七、CERT [2020]
- 三十八、DeCLUTR [2020]
- 三十九、CLEAR [2020]
- 四十、ConSERT [2021]
- 四十一、Sentence-T5 [2021]
- 四十二、ULMFiT [2018]
- 四十三、Scaling Laws for Neural Language Models [2020]
- 四十四、Chinchilla [2022]
- 四十七、GLM-130B [2022]
- 四十八、GPT-NeoX-20B [2022]
- 四十九、Bloom [2022]
- 五十、PaLM [2022] (粗读)
- 五十一、PaLM2 [2023](粗读)
- 五十二、Self-Instruct [2022]
- 句子向量
- 词向量
- 传统CTR 预估模型
- CTR 预估模型
- 一、DSSM [2013]
- 二、FNN [2016]
- 三、PNN [2016]
- 四、DeepCrossing [2016]
- 五、Wide 和 Deep [2016]
- 六、DCN [2017]
- 七、DeepFM [2017]
- 八、NFM [2017]
- 九、AFM [2017]
- 十、xDeepFM [2018]
- 十一、ESMM [2018]
- 十二、DIN [2017]
- 十三、DIEN [2019]
- 十四、DSIN [2019]
- 十五、DICM [2017]
- 十六、DeepMCP [2019]
- 十七、MIMN [2019]
- 十八、DMR [2020]
- 十九、MiNet [2020]
- 二十、DSTN [2019]
- 二十一、BST [2019]
- 二十二、SIM [2020]
- 二十三、ESM2 [2019]
- 二十四、MV-DNN [2015]
- 二十五、CAN [2020]
- 二十六、AutoInt [2018]
- 二十七、Fi-GNN [2019]
- 二十八、FwFM [2018]
- 二十九、FM2 [2021]
- 三十、FiBiNET [2019]
- 三十一、AutoFIS [2020]
- 三十三、AFN [2020]
- 三十四、FGCNN [2019]
- 三十五、AutoCross [2019]
- 三十六、InterHAt [2020]
- 三十七、xDeepInt [2023]
- 三十九、AutoDis [2021]
- 四十、MDE [2020]
- 四十一、NIS [2020]
- 四十二、AutoEmb [2020]
- 四十三、AutoDim [2021]
- 四十四、PEP [2021]
- 四十五、DeepLight [2021]
- 图的表达
- 一、DeepWalk [2014]
- 二、LINE [2015]
- 三、GraRep [2015]
- 四、TADW [2015]
- 五、DNGR [2016]
- 六、Node2Vec [2016]
- 七、WALKLETS [2016]
- 八、SDNE [2016]
- 九、CANE [2017]
- 十、EOE [2017]
- 十一、metapath2vec [2017]
- 十二、GraphGAN [2018]
- 十三、struc2vec [2017]
- 十四、GraphWave [2018]
- 十五、NetMF [2017]
- 十六、NetSMF [2019]
- 十七、PTE [2015]
- 十八、HNE [2015]
- 十九、AANE [2017]
- 二十、LANE [2017]
- 二十一、MVE [2017]
- 二十二、PMNE [2017]
- 二十三、ANRL [2018]
- 二十四、DANE [2018]
- 二十五、HERec [2018]
- 二十六、GATNE [2019]
- 二十七、MNE [2018]
- 二十八、MVN2VEC [2018]
- 二十九、SNE [2018]
- 三十、ProNE [2019]
- Graph Embedding 综述
- 图神经网络
- 一、GNN [2009]
- 二、Spectral Networks 和 Deep Locally Connected Networks [2013]
- 三、Fast Localized Spectral Filtering On Graph [2016]
- 四、GCN [2016]
- 五、神经图指纹 [2015]
- 六、GGS-NN [2016]
- 七、PATCHY-SAN [2016]
- 八、GraphSAGE [2017]
- 九、GAT [2017]
- 十、R-GCN [2017]
- 十一、 AGCN [2018]
- 十二、FastGCN [2018]
- 十三、PinSage [2018]
- 十四、GCMC [2017]
- 十五、JK-Net [2018]
- 十六、PPNP [2018]
- 十七、VRGCN [2017]
- 十八、ClusterGCN [2019]
- 十九、LDS-GNN [2019]
- 二十、DIAL-GNN [2019]
- 二十一、HAN [2019]
- 二十二、HetGNN [2019]
- 二十三、HGT [2020]
- 二十四、GPT-GNN [2020]
- 二十五、Geom-GCN [2020]
- 二十六、Graph Network [2018]
- 二十七、GIN [2019]
- 二十八、MPNN [2017]
- 二十九、UniMP [2020]
- 三十、Correct and Smooth [2020]
- 三十一、LGCN [2018]
- 三十二、DGCNN [2018]
- 三十三、AS-GCN
- 三十四、DGI [2018]
- 三十五、DIFFPOLL [2018]
- 三十六、DCNN [2016]
- 三十七、IN [2016]
- 图神经网络 2
- 图神经网络 3
- 推荐算法(传统方法)
- 一、Tapestry [1992]
- 二、GroupLens [1994]
- 三、ItemBased CF [2001]
- 四、Amazon I-2-I CF [2003]
- 五、Slope One Rating-Based CF [2005]
- 六、Bipartite Network Projection [2007]
- 七、Implicit Feedback CF [2008]
- 八、PMF [2008]
- 九、SVD++ [2008]
- 十、MMMF 扩展 [2008]
- 十一、OCCF [2008]
- 十二、BPR [2009]
- 十三、MF for RS [2009]
- 十四、 Netflix BellKor Solution [2009]
- 推荐算法(神经网络方法 1)
- 一、MIND [2019](用于召回)
- 二、DNN For YouTube [2016]
- 三、Recommending What Video to Watch Next [2019]
- 四、ESAM [2020]
- 五、Facebook Embedding Based Retrieval [2020](用于检索)
- 六、Airbnb Search Ranking [2018]
- 七、MOBIUS [2019](用于召回)
- 八、TDM [2018](用于检索)
- 九、DR [2020](用于检索)
- 十、JTM [2019](用于检索)
- 十一、Pinterest Recommender System [2017]
- 十二、DLRM [2019]
- 十三、Applying Deep Learning To Airbnb Search [2018]
- 十四、Improving Deep Learning For Airbnb Search [2020]
- 十五、HOP-Rec [2018]
- 十六、NCF [2017]
- 十七、NGCF [2019]
- 十八、LightGCN [2020]
- 十九、Sampling-Bias-Corrected Neural Modeling [2019](检索)
- 二十、EGES [2018](Matching 阶段)
- 二十一、SDM [2019](Matching 阶段)
- 二十二、COLD [2020 ] (Pre-Ranking 模型)
- 二十三、ComiRec [2020](https://www.wenjiangs.com/doc/0b4e1736-ac78)
- 二十四、EdgeRec [2020]
- 二十五、DPSR [2020](检索)
- 二十六、PDN [2021](mathcing)
- 二十七、时空周期兴趣学习网络ST-PIL [2021]
- 推荐算法之序列推荐
- 一、FPMC [2010]
- 二、GRU4Rec [2015]
- 三、HRM [2015]
- 四、DREAM [2016]
- 五、Improved GRU4Rec [2016]
- 六、NARM [2017]
- 七、HRNN [2017]
- 八、RRN [2017]
- 九、Caser [2018]
- 十、p-RNN [2016]
- 十一、GRU4Rec Top-k Gains [2018]
- 十二、SASRec [2018]
- 十三、RUM [2018]
- 十四、SHAN [2018]
- 十五、Phased LSTM [2016]
- 十六、Time-LSTM [2017]
- 十七、STAMP [2018]
- 十八、Latent Cross [2018]
- 十九、CSRM [2019]
- 二十、SR-GNN [2019]
- 二十一、GC-SAN [2019]
- 二十二、BERT4Rec [2019]
- 二十三、MCPRN [2019]
- 二十四、RepeatNet [2019]
- 二十五、LINet(2019)
- 二十六、NextItNet [2019]
- 二十七、GCE-GNN [2020]
- 二十八、LESSR [2020]
- 二十九、HyperRec [2020]
- 三十、DHCN [2021]
- 三十一、TiSASRec [2020]
- 推荐算法(综述)
- 多任务学习
- 系统架构
- 实践方法论
- 深度强化学习 1
- 自动代码生成
工具
- CRF
- lightgbm
- xgboost
- scikit-learn
- spark
- numpy
- matplotlib
- pandas
- huggingface_transformer
- 一、Tokenizer
- 二、Datasets
- 三、Model
- 四、Trainer
- 五、Evaluator
- 六、Pipeline
- 七、Accelerate
- 八、Autoclass
- 九、应用
- 十、Gradio
Scala
- 环境搭建
- 基础知识
- 函数
- 类
- 样例类和模式匹配
- 测试和注解
- 集合 collection(一)
- 集合collection(二)
- 集成 Java
- 并发
一、参数范数正则化
一些正则化方法通过对目标函数 $ MathJax-Element-413 $ 添加一个参数范数正则化项 $ MathJax-Element-49 $ 来限制模型的容量
capacity
。正则化之后的目标函数为 $ MathJax-Element-53 $ : $ MathJax-Element-47 $ 。
$ MathJax-Element-48 $ 为正则化项的系数,它衡量正则化项 $ MathJax-Element-49 $ 和标准目标函数 $ MathJax-Element-413 $ 的比重。
- $ MathJax-Element-51 $ 则没有正则化。
- $ MathJax-Element-386 $ 越大则正则化项越重要。
如果最小化 $ MathJax-Element-53 $ ,则会同时降低 $ MathJax-Element-413 $ 和参数 $ MathJax-Element-467 $ 的规模。
参数范数正则化可以缓解过拟合。
如果 $ MathJax-Element-386 $ 设置的足够大,则参数 $ MathJax-Element-467 $ 就越接近零。这意味着模型变得更简单,简单的模型不容易过拟合(但是可能欠拟合)。
对于神经网络,这意味着很多隐单元的权重接近0,于是这些隐单元在网络中不起任何作用。此时大的神经网络会变成一个小的网络。
在 $ MathJax-Element-386 $ 从 零逐渐增加的过程中存在一个中间值,使得参数 $ MathJax-Element-467 $ 的大小合适,即一个合适的模型。
选择不同的 $ MathJax-Element-520 $ 的形式会产生不同的解,常见的形式有 $ MathJax-Element-460 $ 正则化和 $ MathJax-Element-468 $ 正则化。
1.1 L2 正则化
$ MathJax-Element-460 $ 正则化通常被称作岭回归或者
Tikhonov
正则化。- 正则化项为 $ MathJax-Element-64 $ 。系数 $ MathJax-Element-453 $ 是为了使得导数的系数为 1。
- 该正则化形式倾向于使得参数 $ MathJax-Element-467 $ 更接近零。
假设 $ MathJax-Element-467 $ 参数就是权重 $ MathJax-Element-526 $ ,没有偏置参数,则: $ MathJax-Element-69 $ 。
对应的梯度为: $ MathJax-Element-70 $ 。
使用梯度下降法来更新权重,则权重的更新公式为: $ MathJax-Element-71 $ 。即:
$ \mathbf{\vec w}\leftarrow (1-\epsilon\alpha) \mathbf{\vec w}-\epsilon \nabla_{\mathbf{\vec w}} J(\mathbf{\vec w};\mathbf X,\mathbf{\vec y}) $$ MathJax-Element-460 $ 正则化对于梯度更新的影响是:每一步执行梯度更新之前,会对权重向量乘以一个常数因子来收缩权重向量。因此
L2
正则化也被称作“权重衰减”。
1.1.1 整体影响
令 $ MathJax-Element-332 $ ,它就是无正则化项时使得目标函数最小的权重向量。
根据极小值的条件,有 $ MathJax-Element-74 $ 。于是在 $ MathJax-Element-361 $ 的邻域内泰勒展开 $ MathJax-Element-362 $ :
$ \hat J(\mathbf{\vec w})=J(\mathbf{\vec w}^{*}) +\mathbf{\vec 0} +\frac 12(\mathbf{\vec w}-\mathbf{\vec w}^{*})^{T}\mathbf H(\mathbf{\vec w}-\mathbf{\vec w}^{*}),\quad \mathbf{\vec w} \in \mathbb N(\mathbf{\vec w}^*) $其中: $ MathJax-Element-363 $ 为 $ MathJax-Element-78 $ 在 $ MathJax-Element-361 $ 处的海森矩阵; $ MathJax-Element-172 $ 为 $ MathJax-Element-361 $ 处的一个邻域。
则 $ MathJax-Element-82 $ 的梯度为: $ MathJax-Element-334 $ 。
令 $ MathJax-Element-142 $ ,它就是有正则化项时使得目标函数最小的权重向量。
假设 $ MathJax-Element-85 $ , 即 $ MathJax-Element-207 $ 在 $ MathJax-Element-361 $ 的一个邻域内,则有: $ MathJax-Element-88 $ 。
根据极小值条件: $ MathJax-Element-89 $ ,则有:
$ \mathbf H(\tilde{\mathbf{\vec w}}^{*}-\mathbf{\vec w}^{*})+\alpha\tilde{\mathbf{\vec w}}^{*}=\mathbf{\vec 0}\; \rightarrow (\mathbf H+\alpha\mathbf I)\tilde{\mathbf{\vec w}}^{*}=\mathbf H \mathbf{\vec w}^{*}\\ \rightarrow \tilde{\mathbf{\vec w}}^{*}=(\mathbf H+\alpha\mathbf I)^{-1}\mathbf H \mathbf{\vec w}^{*} $当 $ MathJax-Element-90 $ 时, $ MathJax-Element-91 $ 。
因为 $ MathJax-Element-363 $ 是实对称矩阵,对其进行特征值分解: $ MathJax-Element-93 $ 。 其中特征值组成对角矩阵 $ MathJax-Element-94 $ ,对应的特征向量组成正交矩阵 $ MathJax-Element-344 $ :
$ \mathbf \Lambda=\begin{bmatrix}\lambda_1&0&\cdots&0\\0&\lambda_2&\cdots&0\\ \vdots&\vdots&\ddots&\vdots\\ 0&0&\cdots&\lambda_n \end{bmatrix} $于是有:
$ \tilde{\mathbf{\vec w}}^{*}=(\mathbf H+\alpha\mathbf I)^{-1}\mathbf H \mathbf{\vec w}^{*} =(\mathbf Q\mathbf \Lambda\mathbf Q^{T}+\alpha\mathbf I)^{-1}\mathbf Q\mathbf \Lambda\mathbf Q^{T} \mathbf{\vec w}^{*} \\=[\mathbf Q(\mathbf \Lambda+ \alpha\mathbf I)\mathbf Q^{T}]^{-1}\mathbf Q\mathbf \Lambda\mathbf Q^{T} \mathbf{\vec w}^{*} = \mathbf Q(\mathbf \Lambda+ \alpha\mathbf I)^{-1}\mathbf \Lambda\mathbf Q^{T} \mathbf{\vec w}^{*} $其中:
$ (\mathbf \Lambda+ \alpha\mathbf I)^{-1}\mathbf \Lambda=\begin{bmatrix} \frac{\lambda_1}{\lambda_1+\alpha}&0&\cdots&0\\ 0&\frac{\lambda_2}{\lambda_2+\alpha}&\cdots&0\\ \vdots&\vdots&\ddots&\vdots\\ 0&0&\cdots&\frac{\lambda_n}{\lambda_n+\alpha}\end{bmatrix} $$ MathJax-Element-460 $ 正则化对模型整体的影响:沿着 $ MathJax-Element-363 $ 的特征向量所定义的轴来缩放 $ MathJax-Element-101 $ 。
- $ MathJax-Element-363 $ 的第 $ MathJax-Element-437 $ 个特征向量对应的 $ MathJax-Element-101 $ 分量根据 $ MathJax-Element-102 $ 因子缩放。
- 沿着 $ MathJax-Element-363 $ 特征值较大的方向受到正则化的影响较小。
- 当 $ MathJax-Element-104 $ 的方向对应的权重分量将被缩小到几乎为零。
1.1.2 物理意义
如下所示:实线椭圆表示 $ MathJax-Element-413 $ 的等值线,虚线圆表示正则化项 $ MathJax-Element-106 $ 的等值线。
在 $ MathJax-Element-361 $ 点, $ MathJax-Element-413 $ 取得最小值;在 $ MathJax-Element-207 $ 点(也就是图中的 $ MathJax-Element-208 $ 点), $ MathJax-Element-413 $ 和正则化项达到平衡(使得二者之和最小)。
沿着 $ MathJax-Element-126 $ 方向(横向)的 $ MathJax-Element-413 $ 的曲率半径较大;曲率半径越大,曲率越小,特征值越小。
曲率刻画曲线的弯曲程度。弯曲越厉害,则表示曲率半径越小、曲率越大。
直线的曲率半径为 $ MathJax-Element-114 $ ,曲率为0。
曲率半径是曲率的倒数。对于椭圆 $ MathJax-Element-115 $ :
- 在左右顶点:沿着 $ MathJax-Element-129 $ 方向(纵向)的曲率半径为 $ MathJax-Element-117 $ 。
- 在上下顶点:沿着 $ MathJax-Element-126 $ 方向(横向)的曲率半径为 $ MathJax-Element-119 $ 。
- 海森矩阵的特征值为: $ MathJax-Element-120 $ 。
在上图中:
$ MathJax-Element-413 $ 的海森矩阵第一维 ( $ MathJax-Element-126 $ )的特征值很小。
所以当从 $ MathJax-Element-131 $ 点水平移动时, $ MathJax-Element-413 $ 不会增加太多。因为 $ MathJax-Element-413 $ 对这个方向没有强烈的偏好。所以正则化项对于该轴具有强烈的影响:正则化项将 $ MathJax-Element-126 $ 拉向零。
$ MathJax-Element-413 $ 的海森矩阵第二维的特征值较大。
$ MathJax-Element-413 $ 对于 $ MathJax-Element-129 $ 的变化非常敏感,因此正则化项对于该轴影响较小。
因为沿着水平方向,一个较大的偏移只会对 $ MathJax-Element-413 $ 产生一个较小的变化。因此正则化项倾向于从 $ MathJax-Element-131 $ 点水平向零点移动。
$ MathJax-Element-460 $ 正则化表明:
- 只有显著减小目标函数 $ MathJax-Element-413 $ 的那个方向的参数会相对保留下来。
- 无助于减小目标函数 $ MathJax-Element-413 $ 的方向(该方向上 $ MathJax-Element-363 $ 特征值较小,或者说该方向上 $ MathJax-Element-413 $ 的曲率较小,或者说该方向上 $ MathJax-Element-413 $ 的曲线更接近于直线),因为在这个方向上移动不会显著改变梯度,因此这个不重要方向上的分量会因为正则化的引入而被衰减掉。
1.1.3 示例
考虑线性回归的 $ MathJax-Element-460 $ 正则化,采用平方误差作为代价函数:
$ J=(\mathbf X\mathbf{\vec w}-\mathbf{\vec y})^{T}(\mathbf X\mathbf{\vec w}-\mathbf{\vec y})\\ \tilde J =J +\frac {\alpha}{2}\mathbf{\vec w}^{T}\mathbf{\vec w} =(\mathbf X\mathbf{\vec w}-\mathbf{\vec y})^{T}(\mathbf X\mathbf{\vec w}-\mathbf{\vec y})+\frac {\alpha}{2}\mathbf{\vec w}^{T}\mathbf{\vec w} $这里忽略了线性回归的 $ MathJax-Element-139 $ 的影响,这是为了便于说明解的性质。
$ MathJax-Element-332 $ 的解析解为: $ MathJax-Element-141 $ 。
$ MathJax-Element-142 $ 的解析解为: $ MathJax-Element-143 $ 。
样本的协方差矩阵为 $ MathJax-Element-144 $ (这里已经将样本进行了标准化:减去了均值), $ MathJax-Element-145 $ 为样本数量。因此 $ MathJax-Element-530 $ 的对角线对应于每个输入特征的方差, $ MathJax-Element-531 $ 在对角线上增加了 $ MathJax-Element-386 $ 。
因此, $ MathJax-Element-460 $ 正则化使得:
- 方差较小的特征对应的权重被收缩。
- 方差远大于 $ MathJax-Element-386 $ 的特征受影响较小。
- 只有方差接近甚至小于 $ MathJax-Element-386 $ 的特征受影响较大。
1.2 L1 正则化
模型参数 $ MathJax-Element-526 $ 的 $ MathJax-Element-468 $ 的正则化形式为: $ MathJax-Element-154 $ 。即各个参数的绝对值之和。
$ MathJax-Element-468 $ 正则化后的目标函数 $ MathJax-Element-156 $ : $ MathJax-Element-157 $ 。
对应的梯度为 $ MathJax-Element-158 $ 。其中 $ MathJax-Element-159 $ 函数取自变量的符号:
如果自变量大于零,则取值为 1;如果自变量小于零,则取值为 -1;如果自变量为零,则取值为零。
使用梯度下降法来更新权重,给出权重的更新公式为:
$ \mathbf{\vec w}\leftarrow \mathbf{\vec w}-\epsilon(\nabla_{\mathbf{\vec w}} J(\mathbf{\vec w};\mathbf X,\mathbf{\vec y})+\alpha \text{sign}(\mathbf{\vec w}))\\ =(\mathbf{\vec w}-\epsilon\alpha \text{sign}(\mathbf{\vec w}))- \epsilon\nabla_{\mathbf{\vec w}} J(\mathbf{\vec w};\mathbf X,\mathbf{\vec y}) $$ MathJax-Element-468 $ 正则化对于梯度更新的影响是:不再是线性地缩放每个 $ MathJax-Element-199 $ ( $ MathJax-Element-460 $ 正则化项的效果),而是减去与 $ MathJax-Element-163 $ 同号的常数因子。
1.2.1 整体效果
令 $ MathJax-Element-332 $ ,它就是无正则化项时使得目标函数最小的权重向量。
和 $ MathJax-Element-460 $ 正则化中的推导相同,在 $ MathJax-Element-361 $ 的邻域内泰勒展开:
$ \hat J(\mathbf{\vec w})=J(\mathbf{\vec w}^{*}) +\mathbf{\vec 0} +\frac 12(\mathbf{\vec w}-\mathbf{\vec w}^{*})^{T}\mathbf H(\mathbf{\vec w}-\mathbf{\vec w}^{*}),\quad \mathbf{\vec w} \in \mathbb N(\mathbf{\vec w}^*) $其中: $ MathJax-Element-363 $ 为 $ MathJax-Element-413 $ 在 $ MathJax-Element-361 $ 处的海森矩阵; $ MathJax-Element-526 $ 在 $ MathJax-Element-361 $ 的邻域 $ MathJax-Element-172 $ 内。
由于 $ MathJax-Element-468 $ 正则化项在一般的海森矩阵情况下无法得到直接的代数表达式。
因此我们进一步假设海森矩阵是对角矩阵。即:
$ \mathbf H=\begin{bmatrix} H_{1,1}&0&\cdots&0\\ 0&H_{2,2}&\cdots&0\\ \vdots&\vdots&\ddots&\vdots\\ 0&0&\cdots&H_{n,n}\\ \end{bmatrix} $其中 $ MathJax-Element-174 $
如果用于线性回归问题的数据已经被预处理(如使用
PCA
),去除了输入特征之间的相关性,则这一假设成立。于是:
$ \hat J(\mathbf{\vec w})=J(\mathbf{\vec w}^{*}) +\frac 12(\mathbf{\vec w}-\mathbf{\vec w}^{*})^{T}\mathbf H(\mathbf{\vec w}-\mathbf{\vec w}^{*})\\ =J(\mathbf{\vec w}^{*})+\sum_i\left[\frac 12 H_{i,i}(w_i-w_i^{*})^{2}\right],\quad \mathbf{\vec w} \in \mathbb N(\mathbf{\vec w}^*) $考虑定义式,有:
$ \tilde J(\mathbf{\vec w})= J(\mathbf{\vec w})+\alpha ||\mathbf{\vec w}||_1=\hat J(\mathbf{\vec w})+\alpha ||\mathbf{\vec w}||_1\\ =J(\mathbf{\vec w}^{*})+\sum_i\left[\frac 12 H_{i,i}(w_i-w_i^{*})^{2}+\alpha|w_i|\right],\quad \mathbf{\vec w} \in \mathbb N(\mathbf{\vec w}^*) $对于 $ MathJax-Element-526 $ 来讲 , $ MathJax-Element-176 $ 为常量。因此 $ MathJax-Element-177 $ 的最小值由 $ MathJax-Element-178 $ 决定。
考虑每一个维度 $ MathJax-Element-437 $ ,可以考虑最优化目标:
$ \tilde w_i^{*}= \arg\min_{w_i}\left[\frac 12 H_{i,i}(w_i-w_i^{*})^{2}+\alpha|w_i|\right] $得到解析解: $ MathJax-Element-180 $ 。
考虑 $ MathJax-Element-181 $ 的情况。此时有两种可能:
- $ MathJax-Element-182 $ :则 $ MathJax-Element-193 $ 。表示 $ MathJax-Element-468 $ 正则化项将 $ MathJax-Element-199 $ 推向 0 。
- $ MathJax-Element-186 $ :则 $ MathJax-Element-187 $ 。此时 $ MathJax-Element-468 $ 正则化项并不会将 $ MathJax-Element-199 $ 推向 0,而是向零的方向推动了 $ MathJax-Element-200 $ 的距离。
考虑 $ MathJax-Element-191 $ 的情况。此时有两种可能:
- $ MathJax-Element-192 $ :则 $ MathJax-Element-193 $ 。表示 $ MathJax-Element-468 $ 正则化项将 $ MathJax-Element-199 $ 推向 0 。
- $ MathJax-Element-196 $ :则 $ MathJax-Element-197 $ 。此时 $ MathJax-Element-468 $ 正则化项并不会将 $ MathJax-Element-199 $ 推向 0,而是向零的方向推动了 $ MathJax-Element-200 $ 的距离。
如果使用 $ MathJax-Element-460 $ 正则化,则解为 $ MathJax-Element-202 $ 。
1.2.2 物理意义
如下所示:实线椭圆表示 $ MathJax-Element-413 $ 的等值线,实线菱形表示正则化项 $ MathJax-Element-204 $ 的等值线。
在 $ MathJax-Element-361 $ 点, $ MathJax-Element-413 $ 取得最小值;在 $ MathJax-Element-207 $ 点(也就是图中的 $ MathJax-Element-208 $ 点), $ MathJax-Element-413 $ 和正则化项达到平衡(使得二者之和最小)。
可以看到 $ MathJax-Element-413 $ 的等值线更容易与 $ MathJax-Element-468 $ 正则化项的等值线在坐标轴相交从而取得整体极小值。
$ MathJax-Element-468 $ 正则化项更容易产生稀疏(
sparse
)解,而 $ MathJax-Element-460 $ 正则化并不会导致稀疏解。- 在 $ MathJax-Element-468 $ 正则化中, $ MathJax-Element-215 $ 的绝对值越小,该维的特征越容易被稀疏化。
- $ MathJax-Element-468 $ 正则化的这一性质已经被广泛地用作特征选择: $ MathJax-Element-468 $ 正则化使得部分特征子集的权重为零,表明相应的特征可以被安全地忽略。
1.3 L1/L2正则化与最大后验估计
许多正则化策略可以被解释为最大后验估计
$ \vec\theta_{MAP} =\arg\max_{\vec\theta}p(\vec\theta\mid \mathbf{\vec x})=\arg\max_{\vec\theta}p(\mathbf{\vec x} \mid \vec\theta )+\log p(\vec\theta) $MAP
:最大化后验估计等价于最小化代价函数。
$ MathJax-Element-460 $ 正则化项:参数的先验分布为高斯分布:
$ \log p(\mathbf{\vec w})=\log \mathcal N(\mathbf{\vec w};0,\frac 1\alpha \mathbf I) =-\frac {\alpha}{2}\mathbf{\vec w}^{T}\mathbf{\vec w}+\frac n2 \log\frac{\alpha}{2\pi} $忽略 $ MathJax-Element-219 $ 项,因为它们与 $ MathJax-Element-526 $ 无关。
$ MathJax-Element-468 $ 正则化项:参数的先验分布为各向同性拉普拉斯分布 :
$ \log p(\mathbf{\vec w})=\sum_{i}\log \text{Laplace}(w_i;0,\frac 1\alpha) =-\alpha||\mathbf{\vec w}||_1+n\log\frac{\alpha}{2} $忽略 $ MathJax-Element-222 $ 项,因为它们与 $ MathJax-Element-526 $ 无关。
更复杂的正则化项可以通过先验分布为混合高斯分布得到。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论