An LSTM extension with state-of-the-art language modelling results. 一个LSTM 扩展,能够取得 SOTA 语言模型结果。
论文地址:https://arxiv.org/pdf/1909.01792.pdf 代码复现:https://github.com/deepmind/lamb 先进的神经网络模型的应用是自然语言理解(Natural Language Processing)的众多任务取得先进性进展的根本原因。但是现有的神经网络模型仍然不完美,比如存在泛化能力和语言建模能力不强等诸多问题。 针对这个问题,本论文对在自然语言理解中最常使用的神经网络模型 Long Short-Term Memory(LSTM)进行了改进,提出了形变的LSTM,通过引入额外的门控运算,使得输入x和状态hprw在输入到LSTM之前进行多轮交互计算,最终使得输入和上下文之间具有更加丰富的交互表示。这种改进并不复杂,但是这种简单的修改确在语言模型上取得了显著的效果。