一幅图真正理解LSTM的物理结构

2019 年 5 月 8 日 人工智能前沿讲习班

下图是我看过对LSTM物理结构描述最清楚的图,参考自LSTM神经网络输入输出究竟是怎样的?(https://www.zhihu.com/question/41949741/answer/318977452)

答主在图中对三种架构有简要的说明,这里根据自己的理解,再对它做进一步的解释。



图中的第一部分是LSTM的时序结构版本,它是单个LSTM Cell在多个时间步上展开的形式,实际上是只有一个Cell,因此也可以理解为LSTM是神经网络在时序上的权重共享(CNN是在空间上的权重共享)。嗯,单个LSTM/RNN是下面这样的。



图中的第二部分是LSTM单个Cell的逻辑结构版本,每一个  $\sigma$  对应一个 门,从左到右依次为遗忘门,输入门和输出门,时序的传递是在上下两条线中,上面的线对应较长的短时记忆「long short-term memory」,也即隐状态,下面的线对应短时记忆「short-term memory」,也即输出状态,在普通的RNN中,就只有输出状态会反馈到输入。

控制的角度看,这种时序的传递,其实类似反馈「PS:看来控制没白学hhh」。看一下经典的反馈图:

在控制中,反馈即是把当前输出回传到输入项,和下一时刻的输入共同决定下一时刻的输出,这里输入和输出的组合方式是通过做差得到误差项,然后通过误差项来得到控制量。

在LSTM中,网络的隐状态和输出状态同样会传递到下一个时刻, 和系统下一刻的输入一起共同决定下一刻的输出,这种传递和循环与控制理论中的反馈有异曲同工之妙。这也使得LSTM区别于一般的前馈和卷积神经网络,它能保留历史输入中的重要信息,刻画复杂的历史依赖,和当前输入一起去决定下一个输出。



图中第三部分的物理架构才是这幅图的精髓,看到这部分,才能真正理解LSTM内部的神经网络结构。

LSTM中的每一个门实际上就是一个以sigmoid作为激活函数的全连接层,因为这些门输出都是(0,1)的,也就相当于一个滤波器,0为全部过滤,1为全部通过,以这种方式来保留神经网络认为重要的信息。

LSTM中 'X' 符号对应的是按位做乘法的操作,而不是矩阵的乘法,'+' 号也是按位的加法。

LSTM中一个非常关键的参数,num_units,它是每一个门的神经元个数,它也是输出的维度,在图中它是128。

LSTM的输入和上一时刻的输出是通过concat的形式组合在一起的,然后作为每一个门的输入。

如获至宝的一幅图,希望能帮助大家揭开LSTM的神秘面纱~


@知乎:海晨威

版权声明

本文版权归《海晨威》,转载请自行联系


历史文章推荐:


你正在看吗?👇

登录查看更多
2

相关内容

长短期记忆网络(LSTM)是一种用于深度学习领域的人工回归神经网络(RNN)结构。与标准的前馈神经网络不同,LSTM具有反馈连接。它不仅可以处理单个数据点(如图像),还可以处理整个数据序列(如语音或视频)。例如,LSTM适用于未分段、连接的手写识别、语音识别、网络流量或IDSs(入侵检测系统)中的异常检测等任务。
【ICML2020-华为港科大】RNN和LSTM有长期记忆吗?
专知会员服务
74+阅读 · 2020年6月25日
【CVPR2020】图神经网络中的几何原理连接
专知会员服务
56+阅读 · 2020年4月8日
机器学习速查手册,135页pdf
专知会员服务
338+阅读 · 2020年3月15日
《深度学习》圣经花书的数学推导、原理与Python代码实现
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
77+阅读 · 2020年2月3日
【论文】结构GANs,Structured GANs,
专知会员服务
14+阅读 · 2020年1月16日
【电子书】让 PM 全面理解深度学习 65页PDF免费下载
专知会员服务
17+阅读 · 2019年10月30日
三次简化一张图:一招理解LSTM/GRU门控机制
机器之心
15+阅读 · 2018年12月18日
基础 | 深度解析LSTM神经网络的设计原理
黑龙江大学自然语言处理实验室
6+阅读 · 2018年6月16日
深度学习必须理解的25个概念
机器学习算法与Python学习
5+阅读 · 2018年6月7日
一文读懂LSTM和循环神经网络
七月在线实验室
8+阅读 · 2018年4月18日
长文 | LSTM和循环神经网络基础教程(PDF下载)
机器学习算法与Python学习
14+阅读 · 2018年2月28日
干货|从LSTM到Seq2Seq
全球人工智能
15+阅读 · 2018年1月9日
深度解析LSTM神经网络的设计原理
AI研习社
5+阅读 · 2017年11月1日
CNN、RNN在自动特征提取中的应用
乌镇智库
14+阅读 · 2017年8月4日
【深度学习基础】4. Recurrent Neural Networks
微信AI
16+阅读 · 2017年7月19日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Arxiv
8+阅读 · 2019年2月15日
Learning Implicit Fields for Generative Shape Modeling
Arxiv
10+阅读 · 2018年12月6日
Joint Monocular 3D Vehicle Detection and Tracking
Arxiv
8+阅读 · 2018年12月2日
Relational recurrent neural networks
Arxiv
8+阅读 · 2018年6月28日
Arxiv
10+阅读 · 2018年3月23日
Arxiv
6+阅读 · 2018年2月24日
VIP会员
相关VIP内容
【ICML2020-华为港科大】RNN和LSTM有长期记忆吗?
专知会员服务
74+阅读 · 2020年6月25日
【CVPR2020】图神经网络中的几何原理连接
专知会员服务
56+阅读 · 2020年4月8日
机器学习速查手册,135页pdf
专知会员服务
338+阅读 · 2020年3月15日
《深度学习》圣经花书的数学推导、原理与Python代码实现
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
77+阅读 · 2020年2月3日
【论文】结构GANs,Structured GANs,
专知会员服务
14+阅读 · 2020年1月16日
【电子书】让 PM 全面理解深度学习 65页PDF免费下载
专知会员服务
17+阅读 · 2019年10月30日
相关资讯
三次简化一张图:一招理解LSTM/GRU门控机制
机器之心
15+阅读 · 2018年12月18日
基础 | 深度解析LSTM神经网络的设计原理
黑龙江大学自然语言处理实验室
6+阅读 · 2018年6月16日
深度学习必须理解的25个概念
机器学习算法与Python学习
5+阅读 · 2018年6月7日
一文读懂LSTM和循环神经网络
七月在线实验室
8+阅读 · 2018年4月18日
长文 | LSTM和循环神经网络基础教程(PDF下载)
机器学习算法与Python学习
14+阅读 · 2018年2月28日
干货|从LSTM到Seq2Seq
全球人工智能
15+阅读 · 2018年1月9日
深度解析LSTM神经网络的设计原理
AI研习社
5+阅读 · 2017年11月1日
CNN、RNN在自动特征提取中的应用
乌镇智库
14+阅读 · 2017年8月4日
【深度学习基础】4. Recurrent Neural Networks
微信AI
16+阅读 · 2017年7月19日
相关论文
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Arxiv
8+阅读 · 2019年2月15日
Learning Implicit Fields for Generative Shape Modeling
Arxiv
10+阅读 · 2018年12月6日
Joint Monocular 3D Vehicle Detection and Tracking
Arxiv
8+阅读 · 2018年12月2日
Relational recurrent neural networks
Arxiv
8+阅读 · 2018年6月28日
Arxiv
10+阅读 · 2018年3月23日
Arxiv
6+阅读 · 2018年2月24日
Top
微信扫码咨询专知VIP会员