偏差在神经网络中的作用是什么？

滥情稳全场 2024-09-02 01:45:29

简而言之，偏差允许学习/存储权重的越来越多的变化......（旁注：有时给出一些阈值）。无论如何，更多变化意味着偏差将输入空间的更丰富的表示添加到模型学习/存储的权重中。 （更好的权重可以增强神经网络的猜测能力）

例如，在学习模型中，在某些分类任务中，假设/猜测在给定某些输入的情况下最好以 y=0 或 y=1 为边界...即，对于某些 x=(1,1)，某些 y=0，对于某些 x=(0,1)，某些 y=1。（假设/结果的条件是我上面提到的阈值。请注意，我的示例将输入 X 设置为每个 x=双值或 2 值向量，而不是 Nate 的某个集合 X 的单值 x 输入）。

如果我们忽略偏差，许多输入可能最终由许多相同的权重表示（即学习到的权重大多出现在接近原点的位置）强> (0,0)。
然后，该模型将仅限于较少数量的良好权重，而不是它可以更好地通过偏差学习的更多良好权重。 （学习不好的权重会导致猜测效果较差或神经网络的猜测能力下降）

因此，模型最好在接近原点的地方学习，而且在尽可能多的地方学习在阈值/决策边界内。 通过偏置，我们可以使自由度接近原点，但不限于原点的直接区域。

回复收藏 0 原文

痴意少年 2024-09-02 01:45:29

扩展 zfy 的解释：

一个输入、一个神经元、一个输出的等式应如下所示：

y = a * x + b * 1    and out = f(y)

其中 x 是输入节点的值，1 是偏置节点的值；
y 可以直接是您的输出，也可以传递到函数（通常是 sigmoid 函数）中。另请注意，偏差可以是任何常数，但为了让一切变得更简单，我们总是选择 1（这可能很常见，以至于 zfy 没有显示和解释它就这样做了）。

您的网络正在尝试学习系数 a 和 b 以适应您的数据。
因此，您可以明白为什么添加元素 b * 1 可以使其更好地适应更多数据：现在您可以更改斜率和截距。

如果你有多个输入，你的方程将如下所示：

y = a0 * x0 + a1 * x1 + ... + aN * 1

请注意，该方程仍然描述一个神经元，一个输出网络；如果您有更多神经元，您只需向系数矩阵添加一维，以将输入多路复用到所有节点并将每个节点贡献求和。

您可以以矢量化格式编写，即将

A = [a0, a1, .., aN] , X = [x0, x1, ..., 1]
Y = A . XT

系数放入一个数组中，并将（输入+偏差）放入另一个数组中，您将获得所需的解决方案作为两个向量的点积（您需要转置 X 以使形状正确，我写道XT a 'X 转置'）

所以最后您还可以看到您的偏差，因为这只是多一个输入来表示实际上独立于您的输入的输出部分。

Expanding on zfy's explanation:

The equation for one input, one neuron, one output should look:

y = a * x + b * 1    and out = f(y)

where x is the value from the input node and 1 is the value of the bias node;
y can be directly your output or be passed into a function, often a sigmoid function. Also note that the bias could be any constant, but to make everything simpler we always pick 1 (and probably that's so common that zfy did it without showing & explaining it).

Your network is trying to learn coefficients a and b to adapt to your data.
So you can see why adding the element b * 1 allows it to fit better to more data: now you can change both slope and intercept.

If you have more than one input your equation will look like:

y = a0 * x0 + a1 * x1 + ... + aN * 1

Note that the equation still describes a one neuron, one output network; if you have more neurons you just add one dimension to the coefficient matrix, to multiplex the inputs to all nodes and sum back each node contribution.

That you can write in vectorized format as

A = [a0, a1, .., aN] , X = [x0, x1, ..., 1]
Y = A . XT

i.e. putting coefficients in one array and (inputs + bias) in another you have your desired solution as the dot product of the two vectors (you need to transpose X for the shape to be correct, I wrote XT a 'X transposed')

So in the end you can also see your bias as is just one more input to represent the part of the output that is actually independent of your input.

回复收藏 0 原文

伪装你 2024-09-02 01:45:29

对于我研究的所有 ML 书籍，W 始终定义为两个神经元之间的连接指数，这意味着两个神经元之间的连通性更高。

从发射神经元到目标神经元的信号越强，即 Y = w * X，为了保持神经元的生物学特性，我们需要保持 1 >=W >= -1，但在真正的回归，W 最终会是 |W| >=1 这与神经元的工作方式相矛盾。

因此，我建议 W = cos(theta)，而 1 >= |cos(theta)|，并且 Y= a * X = W * X + b while a = b + W = b + cos(theta) ，b是整数。

回复收藏 0 原文

顾北清歌寒 2024-09-02 01:45:29

偏见是我们的锚。这是我们建立某种基线的一种方式，我们不会低于该基线。就图表而言，可以将 y=mx+b 视为该函数的 y 截距。

输出 = 输入乘以权重值并添加偏差值，然后应用激活函数。

回复收藏 0 原文

苍风燃霜 2024-09-02 01:45:29

术语偏差用于像 y 截距一样调整最终输出矩阵。例如，在经典方程中，y = mx + c，如果 c = 0，则直线将始终通过 0。添加偏差项为我们的神经网络模型提供了更大的灵活性和更好的泛化性。

回复收藏 0 原文

长不大的小祸害 2024-09-02 01:45:29

偏差有助于获得更好的方程。

想象一下输入和输出就像一个函数y = ax + b，你需要在输入（x）和输出（y）之间放置正确的线，以最小化每个点和线之间的全局误差，如果你保持这样的等式y = ax，你将只有一个用于适应的参数，即使你找到了最小化全局误差的最佳a，它也会很友好与想要的价值相去甚远。

你可以说偏差使方程更灵活地适应最佳值

回复收藏 0 原文

半﹌身腐败 2024-09-02 01:45:28

我认为偏见几乎总是有帮助的。实际上，偏置值允许您将激活函数向左或向右移动，这对于成功学习可能至关重要。

看一个简单的例子可能会有所帮助。考虑这个没有偏差的 1 输入、1 输出网络：

simple network

网络的输出是通过乘法计算的输入 (x) 乘以权重 (w₀) 并将结果传递给某种激活函数（例如 sigmoid 函数）。

这是该网络针对不同 w 值计算的函数₀:

网络输出，给定不同的 w0 权重

更改权重 w_{0 本质上改变了 sigmoid 的“陡度”。这很有用，但是如果您希望网络在 x 为 2 时输出 0 该怎么办？仅改变 sigmoid 的陡度并不会真正起作用 - 您希望能够将整个曲线向右移动。}

这正是偏见允许你做的事情。如果我们向该网络添加偏差，如下所示：

...然后网络的输出变为 sig(w₀*x + w₁*1.0)。以下是不同 w₁ 值的网络输出：

网络输出，给定不同的 w1 权重

w₁ 的权重为 -5 会使曲线向右移动，这使我们能够拥有一个当 x 为 2 时输出 0 的网络。

回复收藏 0 原文

清欢 2024-09-02 01:45:28

理解偏差的更简单方法：它在某种程度上类似于线性函数的常数 b

y = ax + b

它允许您向上移动线条并以便更好地拟合预测与数据。

如果没有 b，直线将始终穿过原点 (0, 0)，并且拟合效果可能较差。

回复收藏 0 原文

昔日梦未散 2024-09-02 01:45:28

以下是一些进一步的插图，显示了带有和不带有偏置单元的简单 2 层前馈神经网络在二变量回归问题上的结果。权重随机初始化并使用标准 ReLU 激活。正如我之前的答案得出的结论，如果没有偏差，ReLU 网络就无法在 (0,0) 处偏离零。

回复收藏 0 原文

审判长 2024-09-02 01:45:28

两种不同类型的参数可以
在训练过程中进行调整
ANN，权重和值
激活函数。这是
不切实际，如果
应该只有一个参数
调整。为了解决这个问题
偏置神经元被发明。偏见
神经元位于一层，相连
到下一层的所有神经元，
但上一层中没有，它
总是发出 1。由于偏置神经元
发出 1 个权重，连接到
偏置神经元，直接添加到
其他权重的总和
（方程2.1），就像t值一样
在激活函数中。1

它不切实际的原因是你同时调整权重和值，因此对权重的任何更改都可以抵消对先前数据实例有用的值的更改...添加一个不更改值的偏置神经元可以让您控制该层的行为。

此外，偏差允许您使用单个神经网络来表示类似的情况。考虑由以下神经网络表示的 AND 布尔函数：

_{（来源：aihorizon.com）}

w0 对应于b。
w1 对应于x1。
w2 对应于 x2。

单个感知器可用于
代表许多布尔函数。

例如，如果我们假设布尔值
1（真）和 -1（假），然后是 1
使用双输入感知器的方法
实现 AND 函数的方法是设置
权重 w0 = -3，w1 = w2 = .5。
这个感知器可以被做成
将 OR 函数表示为
将阈值更改为 w0 = -.3。在
事实上，AND 和 OR 可以看作
m-of-n 函数的特殊情况：
也就是说，函数中至少有 m 个
感知器的 n 个输入必须是
真的。 OR 函数对应于
m = 1 和 m = n 的 AND 函数。
任何 m-of-n 函数都很容易
使用感知器表示为
将所有输入权重设置为相同
值（例如，0.5），然后设置
相应的阈值w0。

感知器可以代表所有
原始布尔函数 AND、OR、
NAND（1 个与）和 NOR（1 个或）。机器学习 - 汤姆·米切尔）

阈值是偏差，w0 是与偏差/阈值神经元相关的权重。

Two different kinds of parameters can
be adjusted during the training of an
ANN, the weights and the value in the
activation functions. This is
impractical and it would be easier if
only one of the parameters should be
adjusted. To cope with this problem a
bias neuron is invented. The bias
neuron lies in one layer, is connected
to all the neurons in the next layer,
but none in the previous layer and it
always emits 1. Since the bias neuron
emits 1 the weights, connected to the
bias neuron, are added directly to the
combined sum of the other weights
(equation 2.1), just like the t value
in the activation functions.1

The reason it's impractical is because you're simultaneously adjusting the weight and the value, so any change to the weight can neutralize the change to the value that was useful for a previous data instance... adding a bias neuron without a changing value allows you to control the behavior of the layer.

Furthermore the bias allows you to use a single neural net to represent similar cases. Consider the AND boolean function represented by the following neural network:

_{(source: aihorizon.com)}

w0 corresponds to b.
w1 corresponds to x1.
w2 corresponds to x2.

A single perceptron can be used to
represent many boolean functions.

For example, if we assume boolean values
of 1 (true) and -1 (false), then one
way to use a two-input perceptron to
implement the AND function is to set
the weights w0 = -3, and w1 = w2 = .5.
This perceptron can be made to
represent the OR function instead by
altering the threshold to w0 = -.3. In
fact, AND and OR can be viewed as
special cases of m-of-n functions:
that is, functions where at least m of
the n inputs to the perceptron must be
true. The OR function corresponds to
m = 1 and the AND function to m = n.
Any m-of-n function is easily
represented using a perceptron by
setting all input weights to the same
value (e.g., 0.5) and then setting the
threshold w0 accordingly.

Perceptrons can represent all of the
primitive boolean functions AND, OR,
NAND ( 1 AND), and NOR ( 1 OR). Machine Learning- Tom Mitchell)

The threshold is the bias and w0 is the weight associated with the bias/threshold neuron.

回复收藏 0 原文

离去的眼神 2024-09-02 01:45:28

偏差不是一个NN术语。这是一个需要考虑的通用代数术语。

Y = M*X + C（直线方程）

现在如果C(Bias) = 0那么，直线将始终通过原点，即( 0,0)，并且仅取决于一个参数，即 M，即斜率，因此我们可以玩的东西较少。

C，即偏差采用任意数字，并且具有移动图形的活动，因此能够表示更复杂的情况。

在逻辑回归中，目标的期望值通过链接函数进行转换，以将其值限制在单位区间内。方式，模型预测可以被视为主要结果概率，如下所示：

维基百科上的 Sigmoid 函数

通过这种是神经网络图中打开和关闭神经元的最后一个激活层。这里偏差也发挥了作用，它灵活地改变曲线以帮助我们绘制模型。

回复收藏 0 原文

说谎友 2024-09-02 01:45:28

神经网络中没有偏置的层只不过是输入向量与矩阵的乘法。（输出向量可能会通过 sigmoid 函数进行标准化并用于多层 ANN之后，但这并不重要。）

这意味着您使用的是线性函数，因此全零的输入将始终映射到全零的输出。对于某些系统来说，这可能是一个合理的解决方案，但总的来说，它的限制性太大。

使用偏差，您可以有效地向输入空间添加另一个维度，该维度始终采用值 1，因此您可以避免输入向量全为零。您不会因此失去任何通用性，因为您训练的权重矩阵不需要是满射的，因此它仍然可以映射到以前可能的所有值。

2D ANN：

对于将二维映射到一维的 ANN，如再现 AND 或 OR（或 XOR）函数，您可以将神经元网络视为执行以下操作：

在 2D 平面上标记输入向量的所有位置。因此，对于布尔值，您需要标记 (-1,-1)、(1,1)、(-1,1)、(1,-1)。您的人工神经网络现在所做的是在 2d 平面上画一条直线，将正输出与负输出值分开。

如果没有偏置，这条直线必须经过零，而如果有偏置，你可以随意将它放在任何地方。
因此，您会发现，如果没有偏见，您将面临 AND 函数的问题，因为您不能将 (1,-1) 和 (-1,1) 都设为负数边。（他们不允许在线。）对于 OR 函数来说，问题是相同的。然而，有了偏见，就很容易划清界限。

请注意，在这种情况下，即使有偏差也无法求解 XOR 函数。

回复收藏 0 原文

回首观望 2024-09-02 01:45:28

当您使用人工神经网络时，您很少了解您想要学习的系统的内部结构。有些事情是无法在没有偏见的情况下学习的。例如，看一下以下数据：(0, 1)、(1, 1)、(2, 1)，基本上是将任何 x 映射到 1 的函数。

如果您有一个单层网络（或线性映射）），你找不到解决方案。然而，如果你有偏见，那是微不足道的！

在理想的设置中，偏差还可以将所有点映射到目标点的平均值，并让隐藏神经元对与该点的差异进行建模。

回复收藏 0 原文

情深如许 2024-09-02 01:45:28

单独修改神经元权重仅用于操纵传递函数的形状/曲率，而不是其平衡/零交叉点。

引入偏置神经元允许您沿着输入轴水平（左/右）移动传递函数曲线，同时保持形状/曲率不变。
这将允许网络产生与默认值不同的任意输出，因此您可以自定义/转移输入到输出映射以满足您的特定需求。

请参阅此处的图形解释：
http://www.heatonresearch.com/wiki/Bias

回复收藏 0 原文

浅沫记忆 2024-09-02 01:45:28

在我的硕士论文（例如第59页）中的几个实验中，我发现偏差对于第一层可能很重要，但特别是在最后的全连接层，它似乎并没有发挥很大的作用。

这可能高度依赖于网络架构/数据集。

回复收藏 0 原文

就此别过 2024-09-02 01:45:28

如果您正在处理图像，您实际上可能更愿意根本不使用偏差。从理论上讲，这样您的网络将更加独立于数据量，例如图片是暗的还是明亮的和生动的。网络将通过研究数据中的相对论来学习完成它的工作。许多现代神经网络都利用了这一点。

对于其他存在偏差的数据可能至关重要。这取决于您正在处理的数据类型。如果你的信息是大小不变的——如果输入 [1,0,0.1] 应该得到与输入 [100,0,10] 相同的结果，那么如果没有偏差，你的情况可能会更好。

回复收藏 0 原文

兰花执着 2024-09-02 01:45:28

偏差决定了您的重量将旋转多少角度。

在二维图表中，权重和偏差可以帮助我们找到输出的决策边界。

假设我们需要构建一个 AND 函数，输入（p）-输出（t）对应该是

{p=[0,0], t=0},{p=[1,0], t=0},{p=[0,1], t=0},{p=[1 ,1], t=1}

现在我们需要找到一个决策边界，理想的边界应该是：

看到了吗？ W 垂直于我们的边界。因此，我们说W决定了边界的方向。

然而，第一次就找到正确的W是很困难的。大多数情况下，我们随机选择原始W值。因此，第一个边界可能是这样的：

现在边界平行于 y 轴。

我们想要旋转边界。如何？

通过改变W。

所以，我们使用学习规则函数：W'=W+P:

W'=W+P 相当于 W' = W + bP，而 b=1。

因此，通过改变b(bias)的值，就可以决定W'和W之间的角度。这就是“ANN的学习规则”。

您还可以阅读 Martin T. Hagan / Howard B. Demuth / Mark H 的神经网络设计比尔，第 4 章“感知器学习规则”

回复收藏 0 原文

┼── 2024-09-02 01:45:28

以简单的方式思考，如果您有 y=w1*x，其中 y 是输出，w1 是权重，请想象一个条件其中 x=0 则 y=w1*x 等于 0。

如果你想更新你的体重，你必须计算 delw=target-y 的变化量，其中 target 是你的目标输出。在这种情况下，'delw'不会改变，因为y计算为0。因此，假设如果您可以添加一些额外的值，它将有助于y = w1< em>x + w01，其中bias=1，可以调整权重以获得正确的bias。考虑下面的例子。

就直线斜率而言，截距是线性方程的一种特定形式。

y = mx + b

检查图像

图像

这里b是 (0,2)

如果你想将其增加到 (0,3)，你将如何通过改变 b 的值来做到这一点？

回复收藏 0 原文

偏差在神经网络中的作用是什么？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（18）

关于作者

相关话题

热门标签

推荐作者

忆悲凉

hgfg1645

qq_qLPLYi

戏舞

殊姿

﹂绝世的画

友情链接

偏差在神经网络中的作用是什么？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（18）

关于作者

相关话题

热门标签

推荐作者

忆悲凉

hgfg1645

qq_qLPLYi

戏舞

殊姿

﹂绝世的画

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。