文江博客开发文档无痛的机器学习第一季文章详情

文章来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

神经网络-全连接层（2）

发布于 2025-02-25 23:04:57 字数 8423 浏览 0 评论 0 收藏 0

这一回聊一下神经网络的反向传导算法问题。反向传导算法是一个比较复杂的算法，但是如果把它拆解开，其实每一个小步骤并不复杂。

在此之前需要先介绍一个概念，那就是 模型训练目标 。神经网络是一个用在监督学习上的模型，所谓的监督学习就是我们要提前知道输入和输出。那么我们的模型训练目标自然是希望模型在接收输入后，可以得到和我们提前知道的一样的输出。

但是怎么描述这个“一样”呢？现实中会有很多具体的表述方法。这里我们介绍并采用一种相对简单的方式，那就是二次损失函数。对于模型的输出 y，和我们提前知道的理论输出 t，有：

$Loss(y,t)=\frac{1}{2}(y-t)^2$

好了，下面我们定义一个双层神经网络，其中：

输入的数据是 2 维
第一层神经网络的输入也是 2 维，输出是 4 维，非线性部分采用 sigmoid 函数
第二层神经网络的输入也是 4 维，输出是 1 维，非线性部分采用 sigmoid 函数

下面的时间请大家想象这个神经网络……

不用想了，画了个比较丑的……

链式求导

下面的时间我们来推导神经网络的优化公式。推导公式本身不需要太多的数学知识，但是需要一些耐心，我们首先解决一个数据的推导，然后扩展到一批（batch）数据上。

我们的目标函数是这个损失函数 Loss，优化方法还是之前提到的梯度下降法，那么我们就需要求出每一个参数的梯度，也就是：

第一层： $\frac{\partial Loss}{\partial w^0_{00}},\frac{\partial Loss}{\partial w^0_{01}},\frac{\partial Loss}{\partial w^0_{02}},\frac{\partial Loss}{\partial w^0_{03}},\frac{\partial Loss}{\partial w^0_{10}},\frac{\partial Loss}{\partial w^0_{11}},\frac{\partial Loss}{\partial w^0_{12}},\frac{\partial Loss}{\partial w^0_{13}}$

$\frac{\partial Loss}{\partial b^0_{0}},\frac{\partial Loss}{\partial b^0_{1}},\frac{\partial Loss}{\partial b^0_{2}},\frac{\partial Loss}{\partial b^0_{3}}$

第二层： $\frac{\partial Loss}{\partial w^1_{00}},\frac{\partial Loss}{\partial w^1_{10}},\frac{\partial Loss}{\partial w^1_{20}},\frac{\partial Loss}{\partial w^1_{30}},\frac{\partial Loss}{\partial b^1_{0}}$

如果我们能求出上面的 17 个梯度，后面我们就可以用负梯度乘以步长进行优化迭代了，说实话，直接求解这些确实有点难，这时候微分世界的一大神器就来了，那就是链式求导。我们把数据传递的过程再详细描述一下：

输入数据
第一层的线性部分输出
第一层的非线性部分输出
第二层的线性部分输出
第二层的非线性部分输出 y
二次损失函数 Loss

下面就按照这个顺序分步求导，对于上面的六个变量和模型的参数，我们根据每个分布的公式求出每个变量最近的输出的导数： $Loss=\frac{1}{2}(y-t)^2=>\frac{\partial Loss}{\partial y}=y-t$
$y=\frac{1}{1+e^{-z^1}}=>\frac{\partial y}{\partial z^1}=y*(1-y)$

$z^1_0=\sum_{i=0}^{3}{w^1_{i0} * x^1_i}+b^1_0=>\frac{\partial z^1_0}{\partial w^1_{00}}=x^1_0$ , 同层的其他参数不再赘述

$z^1_0=\sum_{i=0}^{3}{w^1_{i0} * x^1_i}+b^1_0=>\frac{\partial z^1_0}{\partial b^1_0}=1$

到这歇一下，我们已经顺利求出第二层的所有参数的导数了，具体的求导过程在这就不说了。下面是第一层

$z^1_0=\sum_{i=0}^{3}{w^1_{i0} * x^1_i}+b^1_0=>\frac{\partial z^1_0}{\partial x^1_0}=w^1_{00}$ , 同层的其他参数不再赘述

$x^1_0=\frac{1}{1+e^{-z^0_0}}=>\frac{\partial x^1_0}{\partial z^0_0}=x^1_0*(1-x^1_0)$ ,同层的其他参数不再赘述

$z^0_0=\sum_{i=0}^1{w^0_{i0}*x^0_i}+b^0_0=>\frac{\partial z^0_0}{\partial w^0_{00}}=x^0_0$

$z^0_2=\sum_{i=0}^1{w^0_{i2}*x^0_i}+b^0_2=>\frac{\partial z^0_2}{\partial w^0_{12}}=x^0_1$ ,同层的其他参数不再赘述

$z^0_0=\sum_{i=0}^1{w^0_{i0}*x^0_i}+b^0_0=>\frac{\partial z^0_0}{\partial b^0_0}=1$ ,同层的其他参数不再赘述

到这里，我们实际上已经完成了基本运算，后面的事情就是把这些小的部分组合起来，比方说：

$\frac{\partial Loss}{\partial w^0_{12}}=\frac{\partial Loss}{\partial y} * \frac{\partial y}{\partial z^1} *\frac{\partial z^1}{\partial x^1_{2}} * \frac{\partial x^1_2}{\partial z^0_2} * \frac{\partial z^0_2}{\partial w^0_{12}}$

看着十分复杂是吧？可是实际上其中每一个部分都已经被我们计算了，我们只需要把数据全部代入就可以了。当然，实际上如果严格按照公式进行计算，梯度的公式会比这个更复杂，但是其中一部分梯度实际上等于 0，所以在此略去。

而且，随着我们从高层网络向低层计算的过程中，很多中间结果可以用于计算高层参数的梯度了。所以经过整理，全部的计算过程可以如下表示：

$\frac{\partial Loss}{\partial y}=y-t$
$\frac{\partial Loss}{\partial z^1_0}=\frac{\partial Loss}{\partial y}*y*(1-y)$

$\frac{\partial Loss}{\partial w^1_{00}}=\frac{\partial Loss}{\partial z^1_0}*x^1_0$ , 同层的其他参数不再赘述

$\frac{\partial Loss}{\partial b^1_0}=\frac{\partial Loss}{\partial z^1_0}*1$

$\frac{\partial Loss}{\partial x^1_0}=\frac{\partial Loss}{\partial z^1_0}*w^1_0$ , 同层的其他参数不再赘述
$\frac{\partial Loss}{\partial z^0_0}=\frac{\partial Loss}{\partial x^1_0}*x^1_0*(1-x^1_0)$ ,同层的其他参数不再赘述
$\frac{\partial Loss}{\partial w^0_{00}}=\frac{\partial Loss}{\partial z^0_0}*x^0_0$ , 同层的其他参数不再赘述
$\frac{\partial Loss}{\partial b^0_0}=\frac{\partial Loss}{\partial z^0_0}*1$ , 同层的其他参数不再赘述