针对长序列或基于事件的序列的循环神经网络训练加速(读书报告)

2017 年 11 月 19 日 科技创新与创业 陈颖

会议:NIPS2016 

作者:Daniel Neil, Michael Pfeiffer, and Shih-Chii Liu

【文章链接

        http://papers.nips.cc/paper/6310-phased-lstm-accelerating-recurrent-network-training-for-long-or-event-based-sequences.pdf

【研究背景

        传统的RNN模型无法处理采样频率不同的各种输入数据

【主要贡献

        该工作提出了Phased LSTM model,Phased LSTM model对LSTM增加一个新的time gate,从而使得扩展后的LSTM可以用于处理有着不同采样频率(更新的时间间隔)的时序事件。 这个新增的time gate被一个带频率范围的参数化震荡(a parametrized oscillation with a frequency range)控制,使得记忆细胞仅在单个周期的极小比重的时间内得以更新。 虽然这种震荡使得记忆细胞的更新变得稀疏,在学习长序列的任务上, Phased LSTM network有着比传统LSTMs更快的收敛速度。

        任意采样频率的传感器带来的输入可以自然地被Phased LSTM model集成,因此可以对异步的带有定时信息的感知事件进行处理,开创新的调查研究领域。同时,在传统的RNN应用领域中,Phased LSTM model也提升了LSTM的性能。

【背景知识】

        LSTM原始文献Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural computation9(8), 1735-1780.

        LSTM的变体Gers, F. A., & Schmidhuber, J. (2000). Recurrent nets that time and count. In Neural Networks, 2000. IJCNN 2000, Proceedings of the IEEE-INNS-ENNS International Joint Conference on (Vol. 3, pp. 189-194). IEEE. 

【核心思想】

        本文的公式(1)(2)(3)(4)(5)是Graves, A. (2013)中定义的公式。而本文作者对公式进行了一些改变。引入周期π、相位偏移(phase shift)s、时间门(time gate)k_t等概念。

   一个完整的周期π共有三种阶段,前两个阶段是open的,而第三个阶段是closed的。用k_t表示新的输入对t时刻的记忆细胞的重要程度。在一个周期的第三个阶段,即closed阶段,k_t处于关闭状态,前一个细胞状态被保留。

k_t在一个周期内的变化公式如下:

可以看到,在第三个阶段(即closed phase),k_t=αΦ_t,α为leak rate。在训练(training)阶段,α=0.001;在测试阶段,α=0。非零的α使得在closed phase时,也能向记忆细胞传播重要的梯度信息(propagate important gradient information),其作用类似于Delving deep into rectifiers: Surpassing human-level performance on imagenet classification(K. He, X. Zhang, S. Ren, and J. Sun,ICCV2015)中a parametric "leaky" rectified linear unit中的leak。

        k_t对记忆细胞更新的影响如公式(7)(8)(9)(10)所示:

 因此,在第三个阶段,即closed阶段,新的输入对记忆细胞的更新影响很小(训练阶段),或者为零(测试阶段),即不在第三阶段对记忆细胞进行更新。

登录查看更多
18

相关内容

长短期记忆网络(LSTM)是一种用于深度学习领域的人工回归神经网络(RNN)结构。与标准的前馈神经网络不同,LSTM具有反馈连接。它不仅可以处理单个数据点(如图像),还可以处理整个数据序列(如语音或视频)。例如,LSTM适用于未分段、连接的手写识别、语音识别、网络流量或IDSs(入侵检测系统)中的异常检测等任务。
【ICML2020】持续终身学习的神经主题建模
专知会员服务
37+阅读 · 2020年6月22日
【新书】贝叶斯网络进展与新应用,附全书下载
专知会员服务
120+阅读 · 2019年12月9日
知识图谱更新技术研究及其应用,复旦大学硕士论文
专知会员服务
103+阅读 · 2019年11月4日
【紫冬分享】基于人体骨架的行为识别
中国科学院自动化研究所
20+阅读 · 2019年1月18日
可视化循环神经网络的注意力机制
论智
22+阅读 · 2018年9月23日
学好机器学习,这里有你想要的一切
算法与数据结构
5+阅读 · 2018年6月19日
深度学习循环神经网络详解
七月在线实验室
16+阅读 · 2018年5月28日
基础 | 基于注意力机制的seq2seq网络
黑龙江大学自然语言处理实验室
16+阅读 · 2018年3月7日
专栏 | Bi-LSTM+CRF在文本序列标注中的应用
机器之心
14+阅读 · 2018年1月3日
赛尔原创 | 基于时间序列网络的谣言检测研究
哈工大SCIR
6+阅读 · 2017年6月19日
Arxiv
6+阅读 · 2020年4月14日
Arxiv
19+阅读 · 2019年4月5日
Arxiv
19+阅读 · 2018年6月27日
Arxiv
3+阅读 · 2018年5月28日
Arxiv
6+阅读 · 2018年3月27日
Arxiv
4+阅读 · 2018年1月29日
Arxiv
5+阅读 · 2018年1月16日
Arxiv
3+阅读 · 2015年5月16日
VIP会员
相关资讯
【紫冬分享】基于人体骨架的行为识别
中国科学院自动化研究所
20+阅读 · 2019年1月18日
可视化循环神经网络的注意力机制
论智
22+阅读 · 2018年9月23日
学好机器学习,这里有你想要的一切
算法与数据结构
5+阅读 · 2018年6月19日
深度学习循环神经网络详解
七月在线实验室
16+阅读 · 2018年5月28日
基础 | 基于注意力机制的seq2seq网络
黑龙江大学自然语言处理实验室
16+阅读 · 2018年3月7日
专栏 | Bi-LSTM+CRF在文本序列标注中的应用
机器之心
14+阅读 · 2018年1月3日
赛尔原创 | 基于时间序列网络的谣言检测研究
哈工大SCIR
6+阅读 · 2017年6月19日
相关论文
Arxiv
6+阅读 · 2020年4月14日
Arxiv
19+阅读 · 2019年4月5日
Arxiv
19+阅读 · 2018年6月27日
Arxiv
3+阅读 · 2018年5月28日
Arxiv
6+阅读 · 2018年3月27日
Arxiv
4+阅读 · 2018年1月29日
Arxiv
5+阅读 · 2018年1月16日
Arxiv
3+阅读 · 2015年5月16日
Top
微信扫码咨询专知VIP会员