注意力机制综述(中文版)

2021 年 1 月 26 日 专知

现在注意力机制已广泛地应用在深度学习的诸多领域。基于注意力机制的结构模型不仅能够记录信息间的位置关系，还能依据信息的权重去度量不同信息特征的重要性。通过对信息特征进行相关与不相关的抉择建立动态权重参数，以加强关键信息弱化无用信息，从而提高深度学习算法效率同时也改进了传统深度学习的一些缺陷。因此从图像处理领域、自然语言处理、数据预测等不同应用方面介绍了一些与注意力机制结合的算法结构，并对近几年大火的基于注意力机制的transformer和reformer算法进行了综述。鉴于注意力机制的重要性，综述了注意力机制的研究发展，分析了注意力机制目前的发展现状并探讨了该机制未来可行的研究方向。

https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CAPJ&dbname=CAPJDAY&filename=JSJY20210122003&v=5lc3RO%25mmd2BEUUDZ5VKfFMXXRYqRj2gJNUsuDvVgyw8OHyIxoY4RlsajnkKOO%25mmd2Fg2oJ44

信息一直在人们生活交往中扮演的重要角色,如图像处理、信息识别、智能计算、自动控制等方面,都是以信息为基础进行研究[1]。但是繁琐庞大、又时常模糊的信息往往让专家学者在探索信息内容时遇到了阻碍,因此一些关于处理信息的科学技术便如雨后春笋般的涌现。其中以深度学习为主要代表的人工智能开始活跃在人们视线中。

近年来,深度学习在人工智能的领域一直充当领跑者的身份,在模式识别、计算机视觉、自然语言处理中有着广泛的应用[2]。深度学习的想法源于人工神经网络的研究,而神经网络的研究是由真实大脑结构激发的,神经网络有很多种类型, 如[3]中介绍,但基本原理是非常相似的。网络中的每个神经元都能够接收、处理输入信号并发送输出信号。每个神经元与其他神经元连接的关系用一个称为权系数的实数来评估,该实数反映了给定连接在神经网络中的重要程度[4]。深度学习就是像神经网络结构一样,通过每层间的输入输出相连接关系,人们可以学习到大量信息特征[5]。

而注意力机制是自深度学习快速发展后广泛应用于自然语言处理、统计学习、图像检测,语音识别和计算机等领域的核心技术[6]。专家学者根据对人类注意力的研究,提出了注意力机制,本质上说就是实现信息处理资源的高效分配[7]。当一个场景进入人类视野时,往往会先关注场景中的一些重点,如动态的点或者突兀的颜色,剩下的静态场景可能会暂时性的忽略[8]。例如当人们需要寻找图片中的人物信息时,会更多的注意符合人物特征的图片区域,而忽略那些不符合人物特征。

的图片区域,这样就是注意力的合理有效分配。注意力是人类大脑中一项不可或缺的复杂认知功能,在日常生活中,人们通过视觉、听觉、触觉等方式接收大量的信息,但是人们可以在这些外界的信息轰炸中还能有条不紊地工作,是因为人脑可以有意或无意地从这些大量输入信息中选择小部分的有用信息来重点处理,并忽略其他信息,这种能力就叫作注意力。注意力机制能够以高权重去聚焦重要信息,低权重去忽略不相关的信息,并且还可以不断调整权重,使得在不同的情况下也可以选取重要的信息,因此具有更高的可扩展性和鲁棒性[9]。其基本网络框架如图 1 所示。

此外,它还能通过共享重要信息(即选定的重要信息)与其他人进行信息交换,从而实现重要信息的传递[10]。因此注意力机制得到广大研究学者的关注,基于注意力机制的一些新的研究算法也在不断被提出验证和应用。注意力机制在深度学习中能够发展迅速的原因主要有以下三个方面。

1) 这个结构是解决多任务最先进的模型,如机器翻译、问题回答、情绪分析、词性标记、对话系统、数据监测、故障诊断等[11-17];

2) 注意力机制的显著优点就是关注相关的信息而忽略不相关的信息,不通过循环而直接建立输入与输出之间的依赖关系,并行化程度增强,运行速度有了很大提高 [18-19]。

3) 它克服了传统神经网络中的一些局限,如随着输入长度增加系统的性能下降、输入顺序不合理导致系统的计算效率低下、系统缺乏对特征的提取和强化等。但是注意力机制能够很好地建模具有可变长度的序列数据,进一步增强了其捕获远程依赖信息的能力,减少层次深度的同时有效提高精度[9,20]。

本文以注意力机制中重要的 transformer 算法为分界点, 分别介绍了前期注意力机制与传统算法循环神经网络 (Recurrent Neural Networks, RNN) 、编 - 解码器 (encoder-decoder)、长短期记忆人工神经网络( Long short-term memory, LSTM)等的结合,并应用于图像处理、自然语言处理和数据预测等领域;和后期以自注意力(self-attention)为基本结构单元的 transformer、reformer 和 hopfield 等算法的发展与应用。最后在文末综述了注意力机制的应用领域和未来研究方向的展望。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“注意力机制” 可以获取《注意力机制综述》专知下载链接索引

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

相关内容

注意力机制

关注 120

Attention机制最早是在视觉图像领域提出来的，但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14]，他们在RNN模型上使用了attention机制来进行图像分类。随后，Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中，使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行，他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近，如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。

图神经网络在自然语言处理中的应用(中文版）,23页pdf

专知会员服务

92+阅读 · 2021年4月18日

最新「注意力机制」大综述论文，66页pdf569篇文献

专知会员服务

209+阅读 · 2021年4月2日

「元学习」最新研究综述(中文版)，25页pdf

专知会员服务

190+阅读 · 2021年2月4日

注意力机制综述

专知会员服务

83+阅读 · 2021年1月26日