卷积层（2）

发布于 2025-02-25 23:04:57 字数 5023 浏览 0 评论 0 收藏 0

这一回我们来看看卷积层的解法。我们将采用两种方法求解：

一种是实力派解法
一种是软件库中常用的套路 - “整容”后的偶像派解法。

这里需要一个小例子，我们假定一个 1*5*5 的输入，卷积层的维度是 1*1*3*3，同时 stride=1,padding=0。最终的输出是 1*3*3。

这里先画个详细的图，图像中对其中的变量做了定义：

其中：

X 表示输入的矩阵，我们用一维的 0-24 表示下标。

K 表示卷积核的矩阵，我们用一维的 0-8 表示下标。

Z 表示卷积的结果，我们用一维的 0-8 表示下标。

由于前面我们提到操作中 stride=1,padding=0，所以我们可以给出简单版和复杂版的输出维度计算公式：

首先是简单版：

$H_{out}=H_{in}-H_{kernel}+1$
$W_{out}=W_{in}-W_{kernel}+1$

然后是复杂版：

$H_{out}=\frac{H_{in}+2*H_{padding}-H_{kernel}}{H_{stride}}+1$
$W_{out}=\frac{W_{in}+2*W_{padding}-W_{kernel}}{W_{stride}}+1$

很显然，当 stride=1,padding=0 时，两个公式是等价的。

实力派解法

所谓的实力派解法就是用卷积定义（这里就用相关操作）去做前向计算，然后利用前向的算法去求反向。

接下来这张图上详细介绍了输出的每一个数值是利用哪一部分的信息计算出来的：

上面这张图上详细地讲述了每一个像素的前向计算公式，同时在计算的过程中，我们将每一个输出结果对应的输入和 kernel 的信息作了标记。实际上这和上一回我们说的算法是一样的。

刚才我们看了前向传播，下面我们看看反向传播的计算。反向传播中的偏置项 bias 这里就不说了，和全连接的反向算法一样，相对简单些。另外我们需要计算两个数值：

给下一层传导的 loss
本层卷积核参数的导数。

首先是下一层参数的 loss，也可以理解为 Loss 对输入数据的梯度。从卷积的过程中直接观察是比较困难的，我们需要讲观看的视角做一下转换。想要求出每个输入的导数，就需要列出每个输入元素参与的计算，这样我们用前面得到的 Loss 和与这个元素相乘的参数进行相乘再相加就可以得到想要的结果了。这个思路和全连接求导的思路是一致的，只是变换的过程需要费点脑筋：

$\frac{\partial Loss}{\partial X_i}=[\frac{\partial Loss}{\partial Z_j}, ...]^T * [\frac{\partial Z_j}{\partial K_l},...]$

为了更加清晰地展示算法，我画了下面这张图：

从这张图可以清楚地看出输入数据和输出 loss 的关系。右边的图主体上是由 5*5 的小图组成，每一个小图就相当于输入所在位置的数据参与卷积计算的过程。可以看出，每个输入数据在卷积过程的参与度是不同的。对于我们这个问题，最终的输出是 9 个数字，每个数字由大小为 9 的卷积计算得到，也就是说我们一共进行了 81 次乘加操作，我们用矩阵的形式把这个参与次数再写出来：

1 2 3 2 1

2 4 6 4 2

3 6 9 6 3

2 4 6 4 2

1 2 3 2 1

相加后发现确实是 81。数字的数量是相符的。

然后我们还可以从延展的虚线中看出，如果将上面小图中的两部分标出的位置进行乘加操作后就可以得出输入所在点的梯度了，而且另外一个发现就是 - 把所有输入点的计算组合起来，是输出数据的梯度和卷积参数核的卷积操作，但是其中有 2 处不同：

卷积核需要旋转 180 度
输出数据的梯度所在的矩阵需要在周围做 padding，padding 的数量等于卷积核的维度减 1

所以这一步的求解最终可以转化成这个伪代码：

residual_x=conv2(padding(residual_z,kernel.shape()-1), rot180(kernel))

通过比较复杂的分析，我们最终得到了一个十分简洁的计算方法。

看完了给下一层传导的 loss，下面是本层的参数导数。和之前类似，我们需要重新整理运算关系。同样地，我们再来一张图进行解释：

从这张图又可以很清楚地看出这个关系。这一次我们直接把输入数据和输出数据的残差做卷积，就可以得到参数 w 的导数。比上面的计算还要简单点。这里的求解也只需要一步就可以：

residual_w=conv2(x,residual_z)

实际上到此为止，卷积层的实力解法就到此结束了，实际上它与全连接层最大的不同就是线性部分，关于非线性部分的事情我们后面再说，但是由于线性部分和非线性部分相互独立，因此分来分析也是完全没有问题的。

所以从上面的分析中可以看出，想要采用实力派的解法需要能够清晰地画出下面三张图：

前向图：标有 卷积核id ->的输入小图->组成的输出大图
下层 Loss：标有 卷积核 id ->的输出小图->组成的输入大图
本层 w 导数：标有 输入 id ->的输出小图->组成的 卷积核 大图

刚才看到的是 stride=1,padding=0 的解法，相对来说省略了一些细节的考虑。如果把这些加上，这种方法也是可以解的，只不过比刚才要复杂一些。这里就不做更进一步的推导了，有志成为“实力派”的童鞋可以去尝试一下进一步地推导。但不管做怎么样的变换，都离不开上面三张图的推导。熟练推导三张图能够让我们更加深刻地理解卷积（相关）操作内部的过程，是绝对有好处的。