一幅图真正理解LSTM的物理结构

2019 年 5 月 8 日 人工智能前沿讲习班

下图是我看过对LSTM物理结构描述最清楚的图，参考自LSTM神经网络输入输出究竟是怎样的？(https://www.zhihu.com/question/41949741/answer/318977452)

答主在图中对三种架构有简要的说明，这里根据自己的理解，再对它做进一步的解释。

图中的第一部分是LSTM的时序结构版本，它是单个LSTM Cell在多个时间步上展开的形式，实际上是只有一个Cell，因此也可以理解为LSTM是神经网络在时序上的权重共享（CNN是在空间上的权重共享）。嗯，单个LSTM/RNN是下面这样的。

图中的第二部分是LSTM单个Cell的逻辑结构版本，每一个 $\sigma$ 对应一个门，从左到右依次为遗忘门，输入门和输出门，时序的传递是在上下两条线中，上面的线对应较长的短时记忆「long short-term memory」，也即隐状态，下面的线对应短时记忆「short-term memory」，也即输出状态，在普通的RNN中，就只有输出状态会反馈到输入。

从控制的角度看，这种时序的传递，其实类似反馈「PS：看来控制没白学hhh」。看一下经典的反馈图：

在控制中，反馈即是把当前输出回传到输入项，和下一时刻的输入共同决定下一时刻的输出，这里输入和输出的组合方式是通过做差得到误差项，然后通过误差项来得到控制量。

在LSTM中，网络的隐状态和输出状态同样会传递到下一个时刻，和系统下一刻的输入一起共同决定下一刻的输出，这种传递和循环与控制理论中的反馈有异曲同工之妙。这也使得LSTM区别于一般的前馈和卷积神经网络，它能保留历史输入中的重要信息，刻画复杂的历史依赖，和当前输入一起去决定下一个输出。

图中第三部分的物理架构才是这幅图的精髓，看到这部分，才能真正理解LSTM内部的神经网络结构。

LSTM中的每一个门实际上就是一个以sigmoid作为激活函数的全连接层，因为这些门输出都是(0,1)的，也就相当于一个滤波器，0为全部过滤，1为全部通过，以这种方式来保留神经网络认为重要的信息。

LSTM中 'X' 符号对应的是按位做乘法的操作，而不是矩阵的乘法，'+' 号也是按位的加法。

LSTM中一个非常关键的参数，num_units，它是每一个门的神经元个数，它也是输出的维度，在图中它是128。

LSTM的输入和上一时刻的输出是通过concat的形式组合在一起的，然后作为每一个门的输入。

如获至宝的一幅图，希望能帮助大家揭开LSTM的神秘面纱~

@知乎：海晨威

本文版权归《海晨威》，转载请自行联系

历史文章推荐：

你正在看吗？👇

登录查看更多

相关内容

长短期记忆网络

关注 120

长短期记忆网络(LSTM)是一种用于深度学习领域的人工回归神经网络(RNN)结构。与标准的前馈神经网络不同，LSTM具有反馈连接。它不仅可以处理单个数据点(如图像)，还可以处理整个数据序列(如语音或视频)。例如，LSTM适用于未分段、连接的手写识别、语音识别、网络流量或IDSs(入侵检测系统)中的异常检测等任务。

【ICML2020-华为港科大】RNN和LSTM有长期记忆吗？

专知会员服务

78+阅读 · 2020年6月25日

【CVPR2020】图神经网络中的几何原理连接

专知会员服务

57+阅读 · 2020年4月8日

机器学习速查手册，135页pdf

专知会员服务

343+阅读 · 2020年3月15日

《深度学习》圣经花书的数学推导、原理与Python代码实现

专知会员服务

324+阅读 · 2020年3月6日