注意力模型深度综述：注意力类型和网络架构都有什么

2019 年 4 月 16 日 黑龙江大学自然语言处理实验室

作者：Sneha Chaudhari 等

编辑：机器之心编辑部，王淑婷、杜伟参与

转载申明：本文经机器之心(微信公众号：almosthuman2014)授权转载，禁止二次转载

注意力模型已成为神经网络中的一种重要概念，并在很多应用领域展开了研究。本文提出了一种分类方法，对这些研究进行了全面有序地综述，并对注意力模型在一些应用领域产生的重大影响进行了讨论。

注意力背后的直觉可以用人类的生物系统来进行最好的解释。例如，我们的视觉处理系统往往会选择性地聚焦于图像的某些部分上，而忽略其它不相关的信息，从而有助于我们感知。类似地，在涉及语言、语音或视觉的一些问题中，输入的某些部分相比其它部分可能更相关。通过让模型仅动态地关注有助于有效执行手头任务的部分输入，注意力模型引入了这种相关性概念。

图 1 显示了使用注意力模型对 Yelp 评论进行情感分类的例子 [Yang et al., 2016]。在这个例子中，注意力模型知道了在五个句子中，第一句和第三句更相关。

图 1：用注意力建模对 Yelp 评论进行分类的例子。

此外，在这些句子中，单词 delicious 和 amazing 在决定评论的情感方面更有意义。

神经网络中建模注意力的快速发展主要源于三个方面。首先，这些模型对多个任务（如机器翻译、问答、情感分析、词性标注、句法解析和对话系统）来说是当前最佳的模型；其次，除了提高主要任务的性能，它们还有一些其它优势。它们还被广泛用于提高神经网络的可解释性，无法解释的神经网络被视为黑箱模型；第三，它们还有助于克服循环神经网络的一些挑战，如随着输入长度的增加而导致的性能下降，以及输入的序列处理所带来的计算效率低下。因此，本文旨在对注意力模型进行简短而又全面的综述。

论文：An Attentive Survey of Attention Models

论文地址：https://arxiv.org/abs/1904.02874

注意力模型已成为神经网络中的一种重要概念，并在各种应用领域进行了研究。本次综述全面有序地概述了建模注意力方面的发展。研究者特别提出了一种分类法，该方法将现有技术归并到连贯类别中。研究者对各种引入了注意力的神经架构进行了回顾，还展示了注意力如何提高神经模型的可解释性。最后，研究者讨论了建模注意力起到重大影响的一些应用。希望本次综述可以简明扼要地介绍注意力模型，为从业者提供指导，同时为其应用开发可行的方法。

注意力模型

注意力模型意在通过让解码器访问完整的编码输入序列 {h_1, h_2, ..., h_T } 来减轻这些挑战。中心思想是在输入序列中引入注意力权重α，来对具有相关信息的位置集合进行优先级排序，以生成下一个输出 token。