干货|从LSTM到Seq2Seq

2018 年 1 月 9 日 全球人工智能


-欢迎加入AI技术专家社群>>

- 日薪5K-10K招兼职AI讲师>>

LSTM(Long Short Term Memory)

由于传统的RNN在进行几次链式法则求导后梯度会指数级缩小(如图),导致传播几层后出现梯度消失,无法处理“长期依赖”问题。国外学者刻意设计了一种RNN的变体来克服这个问题,即LSTM。

基本的LSTM结构如图:

(1) 输入门  i t  :控制当前输入和前一步输出进入新的cell的信息量;

(2) 忘记门  f t  :决定哪些信息需要舍弃;

(3) cell状态更新  c t  :计算下一个时间戳的状态使用经过们处理的前一状态和输入;

(4) 输出门  o t  :计算cell的输出;

(5) 最终LSTM的输出 y t  :使用一个对当前状态的softmax变换进行重变换。

根据上图,设输入序列