返回介绍

数学基础

统计学习

深度学习

工具

Scala

二、损失函数

发布于 2023-07-17 23:38:25 字数 2075 浏览 0 评论 0 收藏 0

2.1 损失函数的非凸性

  1. 在线性模型中,对于线性回归模型,可以直接求解出解析解。对于logistic回归或者SVM,其损失函数为凸的。

    凸优化算法可以保证全局收敛,而且理论上保证从任何一种参数出发都可以收敛。实际计算中,可能遇到数值稳定性问题。

  2. 神经网络和线性模型的最大区别是:神经网络的非线性导致大多数的损失函数都是非凸的。损失函数非凸导致两个问题:

    • 基于梯度的优化算法仅仅能够使得损失函数到达一个较小的值,而不是全局最小值。

    • 基于梯度的优化算法无法保证从任何一个初始参数都能收敛,它对于参数的初值非常敏感。

      对于神经网络:

      • 通常将所有的权重值初始化为小的随机数。

      • 通常将偏置初始化为零或者小的正值。

        不用负数是因为如果偏置的初始值为负,很可能导致某些神经元一直处于未激活状态。

2.2 代价函数的选取

  1. 深度学习的一个重要方面是代价函数的选取。

    • 代价函数给出的是单个样本的损失,损失函数是代价函数在所有样本上的和。
    • 通常神经网络的代价函数与传统模型(如线性模型)的代价函数相同。
  2. 大多数现代的神经网络采用最大似然准则,令代价函数为负的对数似然函数。因此损失函数为:

    $ J(\vec\theta)=-\mathbb E_{\mathbf{\vec x},y\sim \hat p_{data}} \log p_{model}(y\mid \mathbf{\vec x};\vec\theta) $

    其中:

    • $ MathJax-Element-440 $ 为样本的经验分布:

      $ \hat p_{data}(\mathbf{\vec x}_i,y_i)=\begin{cases} \frac 1N \delta(\mathbf{\vec x}-\mathbf{\vec x}_i,y-y_i),& (\mathbf{\vec x}_i,y_i) \in \mathbb D\\ 0,& \text{else} \end{cases} $

      $ MathJax-Element-581 $ 为狄拉克函数,它仅在原点处非0,在其它所有位置都为 0 ,其在整个定义域上的积分为 1 。 $ MathJax-Element-631 $ 为数据集 $ MathJax-Element-633 $ 的大小。

    • $ MathJax-Element-120 $ 为对数据建立的模型, $ MathJax-Element-123 $ 为模型参数。 代价函数的具体形式取决于 $ MathJax-Element-120 $ 的形式,随不同的模型而改变。

      如: $ MathJax-Element-121 $ ,则 $ MathJax-Element-122 $ ,常数项包含了高斯分布的方差,与 $ MathJax-Element-123 $ 无关。

      因此可以看到:此时的最大似然估计等价于最小均方误差。

    • $ MathJax-Element-680 $ 其实就是样本的经验分布 $ MathJax-Element-440 $ 与模型 $ MathJax-Element-120 $ 的交叉熵 $ MathJax-Element-705 $ 。

  3. 使用最大似然准则来导出代价函数的优势是:减轻了为每个模型设计代价函数的负担。一旦明确了一个模型 $ MathJax-Element-124 $ ,则自动地确定了一个代价函数 $ MathJax-Element-125 $ 。

  4. 代价函数的梯度必须足够大且能够计算。

    • 如果代价函数非常平缓,则代价函数的梯度非常小。若梯度很小甚至消失,会导致求解模型参数的迭代过程无法推进。
    • 如果代价函数太大导致发生上溢出时,数值计算会出现问题。用负的对数似然函数作为代价函数可以避免这个问题。
  5. 均方误差和平均绝对误差这两种代价函数,在使用基于梯度的优化方法时,经常会产生非常小的梯度。

    这也是使用负的对数似然函数作为代价函数的一个重要原因。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文