返回介绍

3 门限循环单元 (Gated Recurrent Units)

发布于 2025-02-18 23:44:04 字数 4377 浏览 0 评论 0 收藏 0

除了上述讨论的那些扩展方法,我们还可以使用更复杂的激活单元来提升 RNNs 的性能。到目前为止,我们介绍了使用了放射变换和逐点非线性,使得隐层状态从。在这一节中,我们将讨论修改 RNN 的结构,使用门限激活函数的用法。我们知道虽然 RNNs 能够理论上支持很长的序列,但是训练这个网络十分的困难。门限循环单元可以使得 RNNs 拥有更多持久的记忆从而可以支持更长的序列。接下来我们会分析 GRU 使用来产生下一个隐层状态。我们将深入理解这个结构背后的意义。




GRU 的 4 个基本运算状态如上述公式所述。通过上面的公式可以对整个模型有个清晰的认识(如图 10)。

  1. 新记忆产生: 一个新的记忆 是由过去的隐含状态和新的输入共同得到的。也就是说,这个阶段能够对新观察到的信息(词) 和历史的隐层状态进行合理合并,根据语境向量总结这个新词以何种状态融合。
  2. 重置门: 重置信号会判定对结果的重要程度。如果和新的记忆的计算不相关,那么重置门能够完全消除过去的隐层信息(状态)。
  3. 更新门: 更新信号会决定以多大程度将向下一个状态传递。比如,如果,则几乎完全传递给。相反的,如果,新的前向传递给下一层隐层。
  4. 隐层状态: 使用过去隐层输入最终产生了隐层状态。新的记忆会根据更新门的判定区产生

6.png
图 10:GRU 详细结构图

需要注意的是,训练 GRU 时,我们需要学习不同的参数,W, U, , , , 。我们在上文看到,他们遵循同样的后向传播过程。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文