返回介绍

数学基础

统计学习

深度学习

工具

Scala

二、显式约束正则化

发布于 2023-07-17 23:38:25 字数 1447 浏览 0 评论 0 收藏 0

  1. 可以通过添加一个显式约束来实现正则化: $ MathJax-Element-224 $ 。其中 $ MathJax-Element-403 $ 为一个常数。

  2. 可以通过构建广义拉格朗日函数来求解该约束最优化问题。

    定义广义拉格朗日函数: $ MathJax-Element-226 $ 。则上述约束最优化问题的解由下式给出:

    $ \vec\theta^{*}=\arg\min_{\vec\theta}\max_{\alpha,\alpha\gt 0}\mathcal L(\vec\theta,\alpha) $

    假设 $ MathJax-Element-386 $ 的解为 $ MathJax-Element-229 $ ,固定 $ MathJax-Element-229 $ 则: $ MathJax-Element-230 $ 。

    这和参数范数正则化是相同的,因此可以将参数范数正则化视为对参数强加的约束:

    • 如果 $ MathJax-Element-520 $ 是 $ MathJax-Element-460 $ 范数,则权重就是被约束在一个 $ MathJax-Element-460 $ 球中。
    • 如果 $ MathJax-Element-520 $ 是 $ MathJax-Element-468 $ 范数,则权重就是被约束在一个 $ MathJax-Element-468 $ 限制的区间中。
  3. 也可以通过重投影来求解该约束最优化问题。此时需要修改梯度下降算法:首先计算 $ MathJax-Element-237 $ 的下降步,然后将 $ MathJax-Element-467 $ 投影到满足 $ MathJax-Element-239 $ 的最近点。

  4. 使用显式约束,而不是使用范数正则化有两个好处:

    • 采用范数正则化后,当 $ MathJax-Element-467 $ 较小时容易使得非凸优化的过程陷入局部极小值。

      • 当使用权重范数的正则化时,较小的权重可能是局部最优的。
      • 当使用显式约束时,算法不鼓励权重接近原点,因此工作的较好。
    • 使用显式约束对优化过程增加了一定的稳定性。

      如:当使用了较高的学习率时,很可能进入了正反馈:较大的权重产生了较大的梯度,较大的梯度诱发权重的更大的更新。

      如果这些更新持续增加了权重的大小,则 $ MathJax-Element-467 $ 就会迅速增大直到溢出。显式约束可以防止这种反馈环引起的权重的无限制持续增加。

  5. Srebro and Shraibman提供了一种正则化策略:约束神经网络的权重矩阵每列的范数,而不是限制整个权重矩阵的Frobenius范数。分别限制每一列的范数可以防止某一个隐单元有非常大的权重。

    在实践中,列范数的限制总是通过重投影的显式约束来实现。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文