比标准Attention快197倍！Meta推出多头注意力机制“九头蛇”

会员服务 ·

比标准Attention快197倍！Meta推出多头注意力机制“九头蛇”

2022 年 9 月 19 日 量子位

丰色发自凹非寺
量子位 | 公众号 QbitAI

尽管Transformer已经开始在诸多视觉任务上“大展身手”，但还有一个问题。

那就是在处理大图像上计算比较费劲。

比如面对一个1080p的图时，它会有超过60%的计算量都耗费在了创建和应用注意矩阵上。

究其原因，主要是因为自注意力头的数量是token的平方，而token的数量又与图形大小呈二次方的关系。

那能怎么办呢？

好消息是——

现在Meta捣鼓出了一种多头注意力操作方法，可以做到足足比标准注意力快197倍！

而且在提高计算速度的同时，它也不会牺牲准确率，有时甚至还能将准确率提高1-2个点。

具体怎么回事儿？

思路来源一个“矛盾点”

这个方法名叫Hydra Attention，主要针对Vision Transformer。

（“Hydra”有“九头蛇”之义，来自希腊神话。）

Hydra Attention的思路源于线性注意力中的一种有点矛盾的点：

使用标准的多头自注意力，再向模型中添加更多头可以保持计算量不变。

而在线性注意力中改变操作顺序后，增加更多的头实际上还会降低层的计算成本。

于是，作者通过将模型中的注意力头数量设置成特征（feature）数，创建出一个token和feature的计算都是线性的注意力模块，从而把上述特性发挥到极致。

具体来说：

当标准自注意力头是token数的平方（O(T2D)）时，通过使用可分解核（decomposable kernel），我们重新安排操作顺序，让注意力头的数量变为特征D的平方。

然后再使用Hydra Trick，最大化注意力头H的数量，让H=D，最终就可以化为一个在空间和时间上的O（TD）简化操作了。

其中，Hydra Trick的依据见下图：

作者在ImageNet-1k上训练了具有不同头数的DeiT-B模型，包括使用标准自注意力（蓝线，基于softmax）和使用多头线性注意（红线，基于余弦相似性）的。

前者在H>96、后者在H<3时出现内存不足的情况。

当他们往模型中添加更多的头时，Softmax注意力模型的准确性似乎会崩溃，而多头线性注意力仍可以保持一致，因此就有了上述操作。

（需要注意的是，H必须除以D=768。）

速度快197倍，准确率还能更上层楼

来看看Hydra Attention交出的成绩单。

可以看到，Hydra注意力比标准注意力快197倍（T=197）。

随着图像大小的增加，它显著提高了模型的FLOP数，在创建和应用注意力矩阵所占的计算量上也始终只有0.02%。

除此之外，作者发现，使用不同的内核，Hydra Attention还能让模型的准确率提高大约两个百分点。

或者用Hydra Attention替换特定的注意力层，也能将模型的精度在ImageNet上提高1%或者与基线维持不变。

当然，最多可替换8层。

另外，作者表示，这个方法应该可以扩展到NLP领域，不过他们还没试。

作者介绍

这篇成果已入选ECCV 2022 Workshop。

作者一共5位，分别来自Meta AI和佐治亚理工学院。

其中华人3名，分别是：

Cheng-Yang Fu，本硕毕业于清华大学，博士毕业于美国北卡罗来纳大学教堂山分校，现在是Meta计算机视觉方面的研究科学家。

Xiaoliang Dai，本科毕业于北大，博士毕业于普林斯顿大学，同就职于Meta。

Peizhao Zhang，本硕毕业于中山大学，博士于美国德克萨斯A&M大学，已在Meta工作五年。

论文地址：
https://arxiv.org/abs/2209.07484

参考链接：
https://www.reddit.com/r/MachineLearning/comments/xgqwvu/r_hydra_attention_efficient_attention_with_many/

— 完 —

「人工智能」、「智能汽车」微信社群邀你加入！

欢迎关注人工智能、智能汽车的小伙伴们加入我们，与AI从业者交流、切磋，不错过最新行业发展&技术进展。

PS. 加好友请务必备注您的姓名-公司-职位哦 ~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

多头注意力

关注 2

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【CVPR 2022】NUS&字节跳动提出Shunted Transformer：多尺度Token叠加

专知会员服务

16+阅读 · 2022年4月8日

【ICLR2022】Vision Transformer 模型工作机制的最新理论

专知会员服务

43+阅读 · 2022年2月19日

【CVPR2021】动态区域注意卷积

专知会员服务

21+阅读 · 2021年4月2日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

基于多头注意力胶囊网络的文本分类模型

专知会员服务

78+阅读 · 2020年5月24日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

70+阅读 · 2020年1月17日

【ICLR2020论文】自我注意力与卷积层的关系，On the Relationship between Self-Attention and Convolutional Layers

专知会员服务

37+阅读 · 2020年1月12日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知会员服务

57+阅读 · 2020年1月12日

【文章|自注意力(self-attention)机制图解】《Illustrated: Self-Attention》by Raimi Karim

专知会员服务

45+阅读 · 2019年11月18日

挖掘极致，将head数设置为特征数，Meta AI多头高效注意力模块更准、更快

机器之心

0+阅读 · 2022年9月18日

谷歌团队推出新Transformer，优化全景分割方案｜CVPR 2022

新智元

0+阅读 · 2022年7月27日

让移动设备用上轻量级、低延迟的视觉Transformer，苹果搞了个MobileViT

机器之心

0+阅读 · 2022年5月2日

听说Attention与Softmax更配哦～

PaperWeekly

0+阅读 · 2022年4月9日

SFU、阿里提出通用QuadTree Attention，复杂度变线性，性能还更强！ICLR 2022已接收

新智元

0+阅读 · 2022年3月1日

别再用平均池化层了！Meta AI把注意力塞到池化层，性能立刻提升0.3

新智元

1+阅读 · 2022年1月7日

从熵不变性看Attention的Scale操作

PaperWeekly

1+阅读 · 2021年12月30日

豪取4个SOTA，谷歌魔改Transformer登NeurIPS 2021！一层8个token比1024个还好用

极市平台

0+阅读 · 2021年12月12日

一文读懂Attention机制

机器学习与推荐算法

63+阅读 · 2020年6月9日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

53+阅读 · 2019年4月12日

基于结构与序列信息的蛋白质-配体结合位点的预测

国家自然科学基金

8+阅读 · 2015年12月31日

柔性拦截网力学行为的等代理论及一致性模型

国家自然科学基金

1+阅读 · 2013年12月31日

复杂非线性过程潜在初始故障的监测方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

低氧/HIF对小鼠成纤维细胞直接重编程为心肌细胞的作用及机制的研究

国家自然科学基金

0+阅读 · 2012年12月31日

并行子空间学习方法及其大规模图像识别应用研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于替换的实时Web服务事务处理

国家自然科学基金

0+阅读 · 2012年12月31日

小样本空间制图

国家自然科学基金

0+阅读 · 2012年12月31日

ANCA诱导的ROS在调控中性粒细胞凋亡∕NETosis转换中的作用机制

国家自然科学基金

0+阅读 · 2012年12月31日

三维空间注意的认知神经机制

国家自然科学基金

0+阅读 · 2009年12月31日

模糊推理的机制及其逻辑基础

国家自然科学基金

1+阅读 · 2008年12月31日

Spikformer: When Spiking Neural Network Meets Transformer

Arxiv

0+阅读 · 2022年11月22日

Distract Your Attention: Multi-head Cross Attention Network for Facial Expression Recognition

Arxiv

0+阅读 · 2022年11月22日

Spectral Propagation Graph Network for Few-shot Time Series Classification

Arxiv

0+阅读 · 2022年11月22日

Relational Attention: Generalizing Transformers for Graph-Structured Tasks

Arxiv

0+阅读 · 2022年11月21日

A Survey on Vision Transformer

Arxiv

17+阅读 · 2022年2月23日

MATCH: Metadata-Aware Text Classification in A Large Hierarchy

Arxiv

12+阅读 · 2021年2月15日

Self-Attention Graph Pooling

Arxiv

13+阅读 · 2019年6月13日

Attention U-Net: Learning Where to Look for the Pancreas

Arxiv

17+阅读 · 2018年5月20日

Reinforced Self-Attention Network: a Hybrid of Hard and Soft Attention for Sequence Modeling

Arxiv

16+阅读 · 2018年1月31日

Attention Is All You Need

Arxiv

27+阅读 · 2017年12月6日

VIP会员