神经网络中残留连接的使用是什么？

发布于 2025-02-07 09:36:32 字数 401 浏览 1 评论 0原文

我最近一直在学习自我发明的变形金刚，“您需要的就是您所需要的”论文。在描述论文中使用的神经网络的架构时，本文的一个分解包括有关剩余连接的解释：

“（当然）在编码器和解码器块中使用了残留层连接”” （原点： https://www.kaggle.com/code.com/code /不幸的是，/居民/变压器 - 架构 - 自我注意/笔记本/笔记本）

这对我来说并不明显。剩余连接的目的是什么？为什么这应该是标准实践？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

楠木可依 2025-02-14 09:36:32

跳过连接没有什么“显而易见的”，这是作为一个社区，我们学到了艰难的方式。基本的前提是，在饲料向前层的神经网络参数化中，很难学习识别功能。跳过连接使此特殊功能（f（x）= x）非常容易学习，这可以提高网络学习稳定性，并在广泛的应用程序中的整体性能，几乎没有额外的计算成本。从本质上讲，您是在不需要时不使用复杂的计算部分的一部分网络的一种简单方法当前对数学的理解！）。

您可以查看旧论文，例如高速公路网络否则，这将是对三角的条件。

回复收藏 0 原文

~没有更多了~