基础 | GRU神经网络 - 专知

会员服务 ·

2

基础 | GRU神经网络

2018 年 3 月 5 日 黑龙江大学自然语言处理实验室 甄冉冉

作者：黑龙江大学nlp实验室本科生甄冉冉

现在目前用的最多的三种神经网络是CNN，LSTM，GRU。其中，后两者都是RNN的变种，去年又给RNN发明了个SRU（优点是train RNN as fast as CNN）,SRU以后再讲，目前先消化了这个GRU再说。

GRU，Gated Recurrent Unit，门控循环单元。意思大概理解就是在RNN上多加了几个门，目的和LSTM基本一样，为了加强RNN神经网络的记忆能力。

我们先来回忆下最初的SimpleRNN

其中a是记忆单元，g是激活函数，x是输入，b偏执bias，t是时间点。

画图就是这样的：

比如下面的一个机器翻译的例子。

单数cat和was相聚甚远，如果考虑到SimpleRNN的长时间记忆会导致梯度消失的重大问题，有些人就在论文中提出了 GRU (Simplified)简化版。

首先，GRU的记忆单元是C

（也就是说上面的simpleRNN的a的功能给了C，主要是为了和LSTM区别开）

进入单元后，将用C~代替C：

重点来了，GRU的真正重要的思想是有一个gamma u门，这个是希腊文，你看这个多像门呀，u代表update更新的意思，可以说这个是更新门。

因为要设置在0-1之间，所以用的是sigmoid激活函数。实际中，经常非常接近0或1。

我们假设cat，用一个bit记录这个特征，单数设为1，复数的话设为0。(真正网络中会有自己独特的特征记法)

我们希望这个记忆单元C=1能一直保留到was那里，如

即使不是1，实际上也不可能不变是1的，但是只要和1别差距太大就行。其他的特征让C中用其他的参数记录就行，别影响我cat的就行。

那么怎么才能保证cat的特征单元不变呢？这就用到下一个门了：

看上面的公式，我们想，怎么才能让C_t依然等于C_t-1时刻呢？那么就是等于0的时候(这个肯定是理想情况了)

这个时候时间到了was这里时，C中还记着cat单数的事呢。而实际上，

是个负很大的数，也就是经过sigmoid后接近0了。所以，上述的情况是可以的。

到这里，这个简化版的GRU基本讲完了，看看可视化单元：

公式为：

是不是也看到简化俩字了？

是的没错，经过研究者的不断探究，终于研究出来一种适合几乎各种研究实验的新型GRU网络是这样的：

这个GRU可以经过经过更加深度的训练而保持强壮记忆力！

这里的第一个公式：

gamma r的这个r可以表示为relevance相关性，也就是新的t时刻的记忆单元C~和t-1时刻的记忆单元C的相关性。

而这个是什么矩阵呢？刚好第三个式子

解释了的意思，其中W_r是新的参数。

好啦，这里就真的讲完了。

登录查看更多

27

相关内容

GRU

循环神经网络的一种门机制

【ICML2020-华为港科大】RNN和LSTM有长期记忆吗？

【ICML2020-华为港科大】RNN和LSTM有长期记忆吗？

专知会员服务

78+阅读 · 2020年6月25日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

【ICLR2020-】基于记忆的图网络，MEMORY-BASED GRAPH NETWORKS

【ICLR2020-】基于记忆的图网络，MEMORY-BASED GRAPH NETWORKS

专知会员服务

110+阅读 · 2020年2月22日

复旦大学邱锡鹏老师《神经网络与深度学习》书册最新版

复旦大学邱锡鹏老师《神经网络与深度学习》书册最新版

专知会员服务

65+阅读 · 2019年10月9日

神经网络与深度学习，复旦大学邱锡鹏老师

神经网络与深度学习，复旦大学邱锡鹏老师

专知会员服务

122+阅读 · 2019年9月24日

基础 | 深度解析LSTM神经网络的设计原理

基础 | 深度解析LSTM神经网络的设计原理

黑龙江大学自然语言处理实验室

6+阅读 · 2018年6月16日

基础 | 基于注意力机制的seq2seq网络

基础 | 基于注意力机制的seq2seq网络

黑龙江大学自然语言处理实验室

16+阅读 · 2018年3月7日

Simple Recurrent Unit For Sentence Classification

Simple Recurrent Unit For Sentence Classification

哈工大SCIR

6+阅读 · 2017年11月29日

深度解析LSTM神经网络的设计原理

深度解析LSTM神经网络的设计原理

AI研习社

5+阅读 · 2017年11月1日

【深度学习基础】4. Recurrent Neural Networks

【深度学习基础】4. Recurrent Neural Networks

微信AI

16+阅读 · 2017年7月19日

CAN-NER: Convolutional Attention Network for Chinese Named Entity Recognition

CAN-NER: Convolutional Attention Network for Chinese Named Entity Recognition

Arxiv

6+阅读 · 2019年4月30日

CAN-NER: Convolutional Attention Network forChinese Named Entity Recognition

Arxiv

16+阅读 · 2019年4月3日

Relational recurrent neural networks

Relational recurrent neural networks

Arxiv

8+阅读 · 2018年6月28日

CNN+CNN: Convolutional Decoders for Image Captioning

Arxiv

21+阅读 · 2018年5月23日

Chinese NER Using Lattice LSTM

Arxiv

14+阅读 · 2018年5月15日

VIP会员

相关主题

门控循环单元

长短期记忆网络

相关VIP内容

【ICML2020-华为港科大】RNN和LSTM有长期记忆吗？

【ICML2020-华为港科大】RNN和LSTM有长期记忆吗？

专知会员服务

78+阅读 · 2020年6月25日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

【ICLR2020-】基于记忆的图网络，MEMORY-BASED GRAPH NETWORKS

【ICLR2020-】基于记忆的图网络，MEMORY-BASED GRAPH NETWORKS

专知会员服务

110+阅读 · 2020年2月22日

复旦大学邱锡鹏老师《神经网络与深度学习》书册最新版

复旦大学邱锡鹏老师《神经网络与深度学习》书册最新版

专知会员服务

65+阅读 · 2019年10月9日

神经网络与深度学习，复旦大学邱锡鹏老师

神经网络与深度学习，复旦大学邱锡鹏老师

专知会员服务

122+阅读 · 2019年9月24日

热门VIP内容

开通专知VIP会员享更多权益服务

【MIT博士论文】弱监督学习：理论、方法与应用

Andrej Karpathy：2025 年 LLM 年度回顾（2025 LLM Year in Review）

锚定情报：合成欺骗时代的地面真相

NeurIPS 2025 | NMKE：基于神经元归因与动态稀疏掩码的终身知识编辑

相关资讯

基础 | 深度解析LSTM神经网络的设计原理

基础 | 深度解析LSTM神经网络的设计原理

黑龙江大学自然语言处理实验室

6+阅读 · 2018年6月16日

基础 | 基于注意力机制的seq2seq网络

基础 | 基于注意力机制的seq2seq网络

黑龙江大学自然语言处理实验室

16+阅读 · 2018年3月7日

Simple Recurrent Unit For Sentence Classification

Simple Recurrent Unit For Sentence Classification

哈工大SCIR

6+阅读 · 2017年11月29日

深度解析LSTM神经网络的设计原理

深度解析LSTM神经网络的设计原理

AI研习社

5+阅读 · 2017年11月1日

【深度学习基础】4. Recurrent Neural Networks

【深度学习基础】4. Recurrent Neural Networks

微信AI

16+阅读 · 2017年7月19日

相关论文

CAN-NER: Convolutional Attention Network for Chinese Named Entity Recognition

CAN-NER: Convolutional Attention Network for Chinese Named Entity Recognition

Arxiv

6+阅读 · 2019年4月30日

CAN-NER: Convolutional Attention Network forChinese Named Entity Recognition

Arxiv

16+阅读 · 2019年4月3日

Relational recurrent neural networks

Relational recurrent neural networks

Arxiv

8+阅读 · 2018年6月28日

CNN+CNN: Convolutional Decoders for Image Captioning

Arxiv

21+阅读 · 2018年5月23日

Chinese NER Using Lattice LSTM

Arxiv

14+阅读 · 2018年5月15日

大家都在搜

大型语言模型

朱克爱德华兹家族

蓝牙安全攻防

滴滴司机调度系统实践

微信扫码咨询专知VIP会员