注意力机制综述(中文版)

2021 年 1 月 26 日 专知


现在注意力机制已广泛地应用在深度学习的诸多领域。基于注意力机制的结构模型不仅能够记录信息间的位置关系,还能依据信息的权重去度量不同信息特征的重要性。通过对信息特征进行相关与不相关的抉择建立动态权重参数,以加强关键信息弱化无用信息,从而提高深度学习算法效率同时也改进了传统深度学习的一些缺陷。因此从图像处理领域、自然语言处理、数据预测等不同应用方面介绍了一些与注意力机制结合的算法结构,并对近几年大火的基于注意力机制的transformer和reformer算法进行了综述。鉴于注意力机制的重要性,综述了注意力机制的研究发展,分析了注意力机制目前的发展现状并探讨了该机制未来可行的研究方向。 


https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CAPJ&dbname=CAPJDAY&filename=JSJY20210122003&v=5lc3RO%25mmd2BEUUDZ5VKfFMXXRYqRj2gJNUsuDvVgyw8OHyIxoY4RlsajnkKOO%25mmd2Fg2oJ44


信息一直在人们生活交往中扮演的重要角色,如图像处 理、信息识别、智能计算、自动控制等方面,都是以信息为基 础进行研究[1]。但是繁琐庞大、又时常模糊的信息往往让专 家学者在探索信息内容时遇到了阻碍,因此一些关于处理信 息的科学技术便如雨后春笋般的涌现。其中以深度学习为主 要代表的人工智能开始活跃在人们视线中。


近年来,深度学习在人工智能的领域一直充当领跑者的 身份,在模式识别、计算机视觉、自然语言处理中有着广泛的 应用[2]。深度学习的想法源于人工神经网络的研究,而神经网 络的研究是由真实大脑结构激发的,神经网络有很多种类型, 如[3]中介绍,但基本原理是非常相似的。网络中的每个神经元 都能够接收、处理输入信号并发送输出信号。每个神经元与 其他神经元连接的关系用一个称为权系数的实数来评估,该 实数反映了给定连接在神经网络中的重要程度[4]。深度学习 就是像神经网络结构一样,通过每层间的输入输出相连接关 系,人们可以学习到大量信息特征[5]。


而注意力机制是自深度学习快速发展后广泛应用于自然 语言处理、统计学习、图像检测,语音识别和计算机等领域的 核心技术[6]。专家学者根据对人类注意力的研究,提出了注意 力机制,本质上说就是实现信息处理资源的高效分配[7]。当一 个场景进入人类视野时,往往会先关注场景中的一些重点,如 动态的点或者突兀的颜色,剩下的静态场景可能会暂时性的 忽略[8]。例如当人们需要寻找图片中的人物信息时,会更多的 注意符合人物特征的图片区域,而忽略那些不符合人物特征。


的图片区域,这样就是注意力的合理有效分配。注意力是人类 大脑中一项不可或缺的复杂认知功能,在日常生活中,人们通 过视觉、听觉、触觉等方式接收大量的信息,但是人们可以在 这些外界的信息轰炸中还能有条不紊地工作,是因为人脑可 以有意或无意地从这些大量输入信息中选择小部分的有用信 息来重点处理,并忽略其他信息,这种能力就叫作注意力。注意 力机制能够以高权重去聚焦重要信息,低权重去忽略不相关 的信息,并且还可以不断调整权重,使得在不同的情况下也可 以选取重要的信息,因此具有更高的可扩展性和鲁棒性[9]。其 基本网络框架如图 1 所示。


此外,它还能通过共享重要信息(即选定的重要信息)与其 他人进行信息交换,从而实现重要信息的传递[10]。因此注意力 机制得到广大研究学者的关注,基于注意力机制的一些新的 研究算法也在不断被提出验证和应用。注意力机制在深度学习中能够发展迅速的原因主要有以 下三个方面。


1) 这个结构是解决多任务最先进的模型,如机器翻译、问 题回答、情绪分析、词性标记、对话系统、数据监测、 故障诊断等[11-17]; 


2) 注意力机制的显著优点就是关注相关的信息而忽略不 相关的信息,不通过循环而直接建立输入与输出之间的 依赖关系,并行化程度增强,运行速度有了很大提高 [18-19]。 


3) 它克服了传统神经网络中的一些局限,如随着输入长度 增加系统的性能下降、输入顺序不合理导致系统的计算 效率低下、系统缺乏对特征的提取和强化等。但是注意 力机制能够很好地建模具有可变长度的序列数据,进一 步增强了其捕获远程依赖信息的能力,减少层次深度的 同时有效提高精度[9,20]。


本文以注意力机制中重要的 transformer 算法为分界点, 分别介绍了前期注意力机制与传统算法循环神经网络 (Recurrent Neural Networks, RNN) 、 编 - 解 码 器 (encoder-decoder)、长短期记忆人工神经网络( Long short-term memory, LSTM)等的结合,并应用于图像处理、自然语言处理 和数据预测等领域;和后期以自注意力(self-attention)为基本 结构单元的 transformer、reformer 和 hopfield 等算法的发展与应用。最后在文末综述了注意力机制的应用领域和未来研究 方向的展望。



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“注意力机制” 可以获取注意力机制综述专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
23

相关内容

Attention机制最早是在视觉图像领域提出来的,但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14],他们在RNN模型上使用了attention机制来进行图像分类。随后,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中,使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行,他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近,如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。
专知会员服务
90+阅读 · 2021年4月18日
最新「注意力机制」大综述论文,66页pdf569篇文献
专知会员服务
204+阅读 · 2021年4月2日
专知会员服务
187+阅读 · 2021年2月4日
注意力机制综述
专知会员服务
82+阅读 · 2021年1月26日
专知会员服务
200+阅读 · 2020年12月5日
多模态视觉语言表征学习研究综述
专知会员服务
190+阅读 · 2020年12月3日
图神经网络综述 (中文版),14页pdf
专知会员服务
330+阅读 · 2020年11月24日
专知会员服务
180+阅读 · 2020年11月23日
注意力机制模型最新综述
专知会员服务
264+阅读 · 2019年10月20日
注意力机制介绍,Attention Mechanism
专知会员服务
168+阅读 · 2019年10月13日
图像修复研究进展综述
专知
18+阅读 · 2021年3月9日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
综述|计算机视觉中的注意力机制
极市平台
8+阅读 · 2020年8月30日
Attention!注意力机制模型最新综述(附下载)
数据派THU
36+阅读 · 2019年4月14日
Attention!注意力机制模型最新综述
中国人工智能学会
18+阅读 · 2019年4月8日
专栏 | 深入理解图注意力机制
机器之心
25+阅读 · 2019年2月19日
自然语言处理中注意力机制综述
AINLP
27+阅读 · 2019年1月21日
注意力机制(Attention)最新综述论文及相关源码
人工智能学家
30+阅读 · 2018年11月17日
可视化循环神经网络的注意力机制
论智
22+阅读 · 2018年9月23日
深度学习中的注意力机制
CSDN大数据
24+阅读 · 2017年11月2日
Arxiv
8+阅读 · 2020年10月7日
Arxiv
23+阅读 · 2020年9月16日
Talking-Heads Attention
Arxiv
15+阅读 · 2020年3月5日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Arxiv
6+阅读 · 2019年4月8日
Arxiv
136+阅读 · 2018年10月8日
Arxiv
5+阅读 · 2018年5月28日
Arxiv
25+阅读 · 2018年1月24日
VIP会员
相关VIP内容
专知会员服务
90+阅读 · 2021年4月18日
最新「注意力机制」大综述论文,66页pdf569篇文献
专知会员服务
204+阅读 · 2021年4月2日
专知会员服务
187+阅读 · 2021年2月4日
注意力机制综述
专知会员服务
82+阅读 · 2021年1月26日
专知会员服务
200+阅读 · 2020年12月5日
多模态视觉语言表征学习研究综述
专知会员服务
190+阅读 · 2020年12月3日
图神经网络综述 (中文版),14页pdf
专知会员服务
330+阅读 · 2020年11月24日
专知会员服务
180+阅读 · 2020年11月23日
注意力机制模型最新综述
专知会员服务
264+阅读 · 2019年10月20日
注意力机制介绍,Attention Mechanism
专知会员服务
168+阅读 · 2019年10月13日
相关资讯
图像修复研究进展综述
专知
18+阅读 · 2021年3月9日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
综述|计算机视觉中的注意力机制
极市平台
8+阅读 · 2020年8月30日
Attention!注意力机制模型最新综述(附下载)
数据派THU
36+阅读 · 2019年4月14日
Attention!注意力机制模型最新综述
中国人工智能学会
18+阅读 · 2019年4月8日
专栏 | 深入理解图注意力机制
机器之心
25+阅读 · 2019年2月19日
自然语言处理中注意力机制综述
AINLP
27+阅读 · 2019年1月21日
注意力机制(Attention)最新综述论文及相关源码
人工智能学家
30+阅读 · 2018年11月17日
可视化循环神经网络的注意力机制
论智
22+阅读 · 2018年9月23日
深度学习中的注意力机制
CSDN大数据
24+阅读 · 2017年11月2日
相关论文
Arxiv
8+阅读 · 2020年10月7日
Arxiv
23+阅读 · 2020年9月16日
Talking-Heads Attention
Arxiv
15+阅读 · 2020年3月5日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Arxiv
6+阅读 · 2019年4月8日
Arxiv
136+阅读 · 2018年10月8日
Arxiv
5+阅读 · 2018年5月28日
Arxiv
25+阅读 · 2018年1月24日
Top
微信扫码咨询专知VIP会员