论文链接:https://www.zhuanzhi.ai/paper/3d04de5c54e6026e7a6090e9b64017d3

Transformer 模型已被广泛应用于自然语言处理、计算机视觉、语音等诸多领域,并且取得了卓越的结果。但对于超长序列输入,Transformer 模型受到了极大的限制,因为其核心组件“自注意力机制”导致计算和记忆复杂度随序列长度呈二次增长。为了限制这种增长,微软亚洲研究院提出了一种新颖的两级注意模式:PoolingFormer,经验证,该机制在 Natural Question、TyDi QA、Arxiv 摘要生成数据集上,都取得了较好的效果。

在自注意力机制中,token 的表征计算可以简述为其视野范围内邻居表征的加权和。一般来说,令牌“看”得越远,性能就越好,但计算复杂度也更高。微软亚洲研究院的研究员们观察到,对于一个 token 的表征,离它最近的邻居更重要,而越远距离的邻居,包含的冗余信息就越多。根据这一观察,研究员们探索了更有效的自注意力机制。

PoolingFormer 将原始的全注意力机制修改为一个两级注意力机制:第一级采用滑动窗口注意力机制,限制每个词只关注近距离的邻居;第二级采用池化注意力机制,采用更大的窗口来增加每个 token 的感受野,同时利用池化操作来压缩键和值向量,以减少要参加注意力运算的令牌数量。这种结合滑动注意力机制和池化注意力机制的多级设计可以显著降低计算成本和内存消耗,同时还能获得优异的模型性能。与原始的注意力机制相比,PoolingFormer 的计算和内存复杂度仅随序列长度线性增加。

成为VIP会员查看完整内容
35

相关内容

Attention机制最早是在视觉图像领域提出来的,但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14],他们在RNN模型上使用了attention机制来进行图像分类。随后,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中,使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行,他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近,如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。
专知会员服务
34+阅读 · 2021年8月16日
专知会员服务
25+阅读 · 2021年7月22日
【ICML2021】具有线性复杂度的Transformer的相对位置编码
专知会员服务
25+阅读 · 2021年5月20日
专知会员服务
37+阅读 · 2021年5月15日
专知会员服务
82+阅读 · 2021年5月10日
专知会员服务
61+阅读 · 2021年2月16日
【CVPR2020】时序分组注意力视频超分
专知会员服务
31+阅读 · 2020年7月1日
综述|计算机视觉中的注意力机制
极市平台
8+阅读 · 2020年8月30日
【论文笔记】自注意力图池化
专知
82+阅读 · 2019年11月18日
赛尔笔记 | Attention!注意力机制可解释吗?
哈工大SCIR
23+阅读 · 2019年9月27日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
Attention!注意力机制模型最新综述
中国人工智能学会
18+阅读 · 2019年4月8日
从Seq2seq到Attention模型到Self Attention(二)
量化投资与机器学习
23+阅读 · 2018年10月9日
注意力机制(Attention Mechanism)在自然语言处理中的应用
Arxiv
6+阅读 · 2020年4月14日
Arxiv
15+阅读 · 2020年2月5日
Arxiv
6+阅读 · 2019年7月11日
Arxiv
6+阅读 · 2019年4月8日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Arxiv
3+阅读 · 2015年11月29日
VIP会员
相关VIP内容
专知会员服务
34+阅读 · 2021年8月16日
专知会员服务
25+阅读 · 2021年7月22日
【ICML2021】具有线性复杂度的Transformer的相对位置编码
专知会员服务
25+阅读 · 2021年5月20日
专知会员服务
37+阅读 · 2021年5月15日
专知会员服务
82+阅读 · 2021年5月10日
专知会员服务
61+阅读 · 2021年2月16日
【CVPR2020】时序分组注意力视频超分
专知会员服务
31+阅读 · 2020年7月1日
相关资讯
综述|计算机视觉中的注意力机制
极市平台
8+阅读 · 2020年8月30日
【论文笔记】自注意力图池化
专知
82+阅读 · 2019年11月18日
赛尔笔记 | Attention!注意力机制可解释吗?
哈工大SCIR
23+阅读 · 2019年9月27日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
Attention!注意力机制模型最新综述
中国人工智能学会
18+阅读 · 2019年4月8日
从Seq2seq到Attention模型到Self Attention(二)
量化投资与机器学习
23+阅读 · 2018年10月9日
注意力机制(Attention Mechanism)在自然语言处理中的应用
相关论文
Arxiv
6+阅读 · 2020年4月14日
Arxiv
15+阅读 · 2020年2月5日
Arxiv
6+阅读 · 2019年7月11日
Arxiv
6+阅读 · 2019年4月8日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Arxiv
3+阅读 · 2015年11月29日
微信扫码咨询专知VIP会员