文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
3 门限循环单元 (Gated Recurrent Units)
除了上述讨论的那些扩展方法,我们还可以使用更复杂的激活单元来提升 RNNs 的性能。到目前为止,我们介绍了使用了放射变换和逐点非线性,使得隐层状态从到
。在这一节中,我们将讨论修改 RNN 的结构,使用门限激活函数的用法。我们知道虽然 RNNs 能够理论上支持很长的序列,但是训练这个网络十分的困难。门限循环单元可以使得 RNNs 拥有更多持久的记忆从而可以支持更长的序列。接下来我们会分析 GRU 使用
和
来产生下一个隐层状态
。我们将深入理解这个结构背后的意义。
GRU 的 4 个基本运算状态如上述公式所述。通过上面的公式可以对整个模型有个清晰的认识(如图 10)。
- 新记忆产生: 一个新的记忆
是由过去的隐含状态
和新的输入
共同得到的。也就是说,这个阶段能够对新观察到的信息(词) 和历史的隐层状态
进行合理合并,根据语境向量
总结这个新词以何种状态融合。
- 重置门: 重置信号
会判定
对结果
的重要程度。如果
和新的记忆的计算不相关,那么重置门能够完全消除过去的隐层信息(状态)。
- 更新门: 更新信号
会决定以多大程度将
向下一个状态传递。比如,如果
,则
几乎完全传递给
。相反的,如果
,新的
前向传递给下一层隐层。
- 隐层状态: 使用过去隐层输入
最终产生了隐层状态
。新的记忆会根据更新门的判定区产生
。
图 10:GRU 详细结构图
需要注意的是,训练 GRU 时,我们需要学习不同的参数,W, U, ,
,
,
。我们在上文看到,他们遵循同样的后向传播过程。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论