基础 | GRU神经网络

2018 年 3 月 5 日 黑龙江大学自然语言处理实验室 甄冉冉

作者:黑龙江大学nlp实验室本科生甄冉冉


现在目前用的最多的三种神经网络是CNN,LSTM,GRU。其中,后两者都是RNN的变种,去年又给RNN发明了个SRU(优点是train RNN as fast as CNN),SRU以后再讲,目前先消化了这个GRU再说。


GRU,Gated Recurrent Unit,门控循环单元。意思大概理解就是在RNN上多加了几个门,目的和LSTM基本一样,为了加强RNN神经网络的记忆能力


我们先来回忆下最初的SimpleRNN

其中a是记忆单元,g是激活函数,x是输入,b偏执bias,t是时间点。

画图就是这样的:

比如下面的一个机器翻译的例子。

单数cat和was相聚甚远,如果考虑到SimpleRNN的长时间记忆会导致梯度消失的重大问题,有些人就在论文中提出了 GRU (Simplified)简化版


首先,GRU的记忆单元是C

(也就是说上面的simpleRNN的a的功能给了C,主要是为了和LSTM区别开)

进入单元后,将用C~代替C:


重点来了,GRU的真正重要的思想是有一个gamma u门,这个是希腊文,你看这个多像门呀,u代表update更新的意思,可以说这个是更新门

因为要设置在0-1之间,所以用的是sigmoid激活函数。实际中,经常非常接近0或1。

我们假设cat,用一个bit记录这个特征,单数设为1,复数的话设为0。(真正网络中会有自己独特的特征记法)

我们希望这个记忆单元C=1能一直保留到was那里,如

即使不是1,实际上也不可能不变是1的,但是只要和1别差距太大就行。其他的特征让C中用其他的参数记录就行,别影响我cat的就行。

那么怎么才能保证cat的特征单元不变呢?这就用到下一个门了:

看上面的公式,我们想,怎么才能让C_t依然等于C_t-1时刻呢?那么就是等于0的时候(这个肯定是理想情况了)

这个时候时间到了was这里时,C中还记着cat单数的事呢。而实际上,

是个负很大的数,也就是经过sigmoid后接近0了。所以,上述的情况是可以的。


到这里,这个简化版的GRU基本讲完了,看看可视化单元

公式为:


是不是也看到简化俩字了?

是的没错,经过研究者的不断探究,终于研究出来一种适合几乎各种研究实验的新型GRU网络是这样的:

这个GRU可以经过经更加深度的训练而保持强壮记忆力

这里的第一个公式:

gamma r的这个r可以表示为relevance相关性,也就是新的t时刻的记忆单元C~和t-1时刻的记忆单元C的相关性。

而这个是什么矩阵呢?刚好第三个式子

解释了的意思,其中W_r是新的参数。


好啦,这里就真的讲完了。











登录查看更多
27

相关内容

循环神经网络的一种门机制
【ICML2020-华为港科大】RNN和LSTM有长期记忆吗?
专知会员服务
74+阅读 · 2020年6月25日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
77+阅读 · 2020年5月24日
一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
172+阅读 · 2020年5月6日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
31+阅读 · 2020年4月15日
【ICLR2020-】基于记忆的图网络,MEMORY-BASED GRAPH NETWORKS
专知会员服务
108+阅读 · 2020年2月22日
复旦大学邱锡鹏老师《神经网络与深度学习》书册最新版
神经网络与深度学习,复旦大学邱锡鹏老师
专知会员服务
118+阅读 · 2019年9月24日
三次简化一张图:一招理解LSTM/GRU门控机制
机器之心
15+阅读 · 2018年12月18日
可视化循环神经网络的注意力机制
论智
22+阅读 · 2018年9月23日
基础 | 深度解析LSTM神经网络的设计原理
黑龙江大学自然语言处理实验室
6+阅读 · 2018年6月16日
一文详解LSTM网络
论智
18+阅读 · 2018年5月2日
基础 | 基于注意力机制的seq2seq网络
黑龙江大学自然语言处理实验室
16+阅读 · 2018年3月7日
深度学习基础之LSTM
全球人工智能
28+阅读 · 2017年12月18日
Simple Recurrent Unit For Sentence Classification
哈工大SCIR
6+阅读 · 2017年11月29日
深度解析LSTM神经网络的设计原理
AI研习社
5+阅读 · 2017年11月1日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
【深度学习基础】4. Recurrent Neural Networks
微信AI
16+阅读 · 2017年7月19日
Bivariate Beta LSTM
Arxiv
5+阅读 · 2019年10月7日
Arxiv
3+阅读 · 2018年10月25日
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
Relational recurrent neural networks
Arxiv
8+阅读 · 2018年6月28日
Arxiv
21+阅读 · 2018年5月23日
Arxiv
14+阅读 · 2018年5月15日
VIP会员
相关VIP内容
【ICML2020-华为港科大】RNN和LSTM有长期记忆吗?
专知会员服务
74+阅读 · 2020年6月25日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
77+阅读 · 2020年5月24日
一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
172+阅读 · 2020年5月6日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
31+阅读 · 2020年4月15日
【ICLR2020-】基于记忆的图网络,MEMORY-BASED GRAPH NETWORKS
专知会员服务
108+阅读 · 2020年2月22日
复旦大学邱锡鹏老师《神经网络与深度学习》书册最新版
神经网络与深度学习,复旦大学邱锡鹏老师
专知会员服务
118+阅读 · 2019年9月24日
相关资讯
三次简化一张图:一招理解LSTM/GRU门控机制
机器之心
15+阅读 · 2018年12月18日
可视化循环神经网络的注意力机制
论智
22+阅读 · 2018年9月23日
基础 | 深度解析LSTM神经网络的设计原理
黑龙江大学自然语言处理实验室
6+阅读 · 2018年6月16日
一文详解LSTM网络
论智
18+阅读 · 2018年5月2日
基础 | 基于注意力机制的seq2seq网络
黑龙江大学自然语言处理实验室
16+阅读 · 2018年3月7日
深度学习基础之LSTM
全球人工智能
28+阅读 · 2017年12月18日
Simple Recurrent Unit For Sentence Classification
哈工大SCIR
6+阅读 · 2017年11月29日
深度解析LSTM神经网络的设计原理
AI研习社
5+阅读 · 2017年11月1日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
【深度学习基础】4. Recurrent Neural Networks
微信AI
16+阅读 · 2017年7月19日
相关论文
Bivariate Beta LSTM
Arxiv
5+阅读 · 2019年10月7日
Arxiv
3+阅读 · 2018年10月25日
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
Relational recurrent neural networks
Arxiv
8+阅读 · 2018年6月28日
Arxiv
21+阅读 · 2018年5月23日
Arxiv
14+阅读 · 2018年5月15日
Top
微信扫码咨询专知VIP会员