四大关注愿景变异者组织 (QuadTree Attention for Vision Transformers) - 专知论文

会员服务 ·

0

QuadTree Attention · CC · 注意力机制 · Vision · state-of-the-art ·

2022 年 1 月 8 日

QuadTree Attention for Vision Transformers

翻译：四大关注愿景变异者组织

Shitao Tang,Jiahui Zhang,Siyu Zhu,Ping Tan

from arxiv, In submission

Transformers have been successful in many vision tasks, thanks to their capability of capturing long-range dependency. However, their quadratic computational complexity poses a major obstacle for applying them to vision tasks requiring dense predictions, such as object detection, feature matching, stereo, etc. We introduce QuadTree Attention, which reduces the computational complexity from quadratic to linear. Our quadtree transformer builds token pyramids and computes attention in a coarse-to-fine manner. At each level, the top K patches with the highest attention scores are selected, such that at the next level, attention is only evaluated within the relevant regions corresponding to these top K patches. We demonstrate that quadtree attention achieves state-of-the-art performance in various vision tasks, e.g. with 4.0% improvement in feature matching on ScanNet, about 50% flops reduction in stereo matching, 0.4-1.5% improvement in top-1 accuracy on ImageNet classification, 1.2-1.8% improvement on COCO object detection, and 0.7-2.4% improvement on semantic segmentation over previous state-of-the-art transformers. The codes are available at https://github.com/Tangshitao/QuadtreeAttention}{https://github.com/Tangshitao/QuadtreeAttention.

翻译：由于能够捕捉长距离依赖性,变形器在许多视觉任务中都取得了成功。然而,它们的二次计算复杂性对于将它们应用到需要密集预测的视觉任务,例如物体探测、特征匹配、立体等,构成了一个重大障碍。我们引入了QuadTree 注意, 将计算复杂性从二次变线降低到线性。我们的四叶变形器以粗略到线性的方式建立了象征性的金字塔, 以粗略的方式计算了注意力。在每个级别, 都选择了关注分数最高的顶级 K 补丁, 从而在下一个级别, 仅对与这些顶级K 补形相匹配的相关区域进行关注度评估。我们证明四叶的注意在各种视觉任务中达到最先进的表现, 例如, 使ScanNet的功能匹配率提高了4.0%, 立体匹配率降低了约50%, 图像网分类的顶级一精度提高了0.4-1.5 %, CO对象探测改进了1.2-1.8% 目标值, 而在下一个级别上, 也只对与这些顶级K级变形图/AtreastistereabasionAmatoshimax/Q.

0

相关内容

QuadTree Attention

QuadTree Attention

【NeurIPS 2021】寻找视觉Transformer的搜索空间

【NeurIPS 2021】寻找视觉Transformer的搜索空间

专知会员服务

14+阅读 · 2021年12月1日

【ICCV 2021 】Vision Transformer中的相对位置编码

专知会员服务

30+阅读 · 2021年7月30日

东京大学 | TrTr：基于Transformer的目标跟踪

专知会员服务

36+阅读 · 2021年5月12日

【CVPR2021】基于Transformers 从序列到序列的角度重新思考语义分割

【CVPR2021】基于Transformers 从序列到序列的角度重新思考语义分割

专知会员服务

44+阅读 · 2021年3月15日

【CVPR2021】用Transformers无监督预训练进行目标检测

【CVPR2021】用Transformers无监督预训练进行目标检测

专知会员服务

58+阅读 · 2021年3月3日

最新《Transformers模型》教程，64页ppt

最新《Transformers模型》教程，64页ppt

专知会员服务

321+阅读 · 2020年11月26日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知会员服务

33+阅读 · 2020年10月11日

CVPR 2020 论文开源项目合集

专知会员服务

110+阅读 · 2020年3月12日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

一文细数73个Vision transformer家族成员

一文细数73个Vision transformer家族成员

极市平台

0+阅读 · 2022年3月17日

ICLR 2022 | 新注意力！用于ViT的QuadTree Attention

ICLR 2022 | 新注意力！用于ViT的QuadTree Attention

CVer

0+阅读 · 2022年3月2日

SFU、阿里提出通用QuadTree Attention，复杂度变线性，性能还更强！ICLR 2022已接收

SFU、阿里提出通用QuadTree Attention，复杂度变线性，性能还更强！ICLR 2022已接收

新智元

0+阅读 · 2022年3月1日

当可变形注意力机制引入Vision Transformer

当可变形注意力机制引入Vision Transformer

极市平台

1+阅读 · 2022年1月23日

BERT/Transformer/迁移学习NLP资源大列表

BERT/Transformer/迁移学习NLP资源大列表

专知

19+阅读 · 2019年6月9日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【推荐】全卷积语义分割综述

【推荐】全卷积语义分割综述

机器学习研究会

19+阅读 · 2017年8月31日

【推荐】图像分类必读开创性论文汇总

【推荐】图像分类必读开创性论文汇总

机器学习研究会

14+阅读 · 2017年8月15日

基于分层与或图模型的光学遥感图像场景理解方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于流域特性定量评估的东北河流氮磷基准研究

国家自然科学基金

0+阅读 · 2015年12月31日

交通网络、城市聚集对城市群经济增长的作用机制研究与模型化解释：以长三角城市群为例

国家自然科学基金

1+阅读 · 2014年12月31日

具有3D空间辨识力的视觉显著计算模型研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于遥感同化的PM2.5源清单优化方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

奇性空间上的几何分析

国家自然科学基金

0+阅读 · 2013年12月31日

基于影像关联层次模型的遥感影像检索研究

国家自然科学基金

1+阅读 · 2013年12月31日

ERG介导组蛋白修饰调控CRMP4失活启动前列腺癌转移的分子机制

国家自然科学基金

0+阅读 · 2012年12月31日

车载激光扫描点云与全景影像的高精度配准方法

国家自然科学基金

0+阅读 · 2012年12月31日

有限维Banach几何与关于凸体覆盖的Hadwiger猜想

国家自然科学基金

0+阅读 · 2012年12月31日

Not All Tokens Are Equal: Human-centric Visual Analysis via Token Clustering Transformer

Arxiv

0+阅读 · 2022年4月20日

Fourier Image Transformer

Arxiv

2+阅读 · 2022年4月19日

Multimodal Token Fusion for Vision Transformers

Arxiv

3+阅读 · 2022年4月19日

VSA: Learning Varied-Size Window Attention in Vision Transformers

VSA: Learning Varied-Size Window Attention in Vision Transformers

Arxiv

0+阅读 · 2022年4月18日

Dynamic Position Encoding for Transformers

Arxiv

1+阅读 · 2022年4月18日

Attention Mechanisms in Computer Vision: A Survey

Arxiv

58+阅读 · 2021年11月15日

Attention Bottlenecks for Multimodal Fusion

Arxiv

31+阅读 · 2021年6月30日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

Attention Is All You Need

Arxiv

27+阅读 · 2017年12月6日

VIP会员

文章信息

相关主题

QuadTree Attention

注意力机制

state-of-the-art

相关VIP内容

【NeurIPS 2021】寻找视觉Transformer的搜索空间

【NeurIPS 2021】寻找视觉Transformer的搜索空间

专知会员服务

14+阅读 · 2021年12月1日

【ICCV 2021 】Vision Transformer中的相对位置编码

专知会员服务

30+阅读 · 2021年7月30日

东京大学 | TrTr：基于Transformer的目标跟踪

专知会员服务

36+阅读 · 2021年5月12日

【CVPR2021】基于Transformers 从序列到序列的角度重新思考语义分割

【CVPR2021】基于Transformers 从序列到序列的角度重新思考语义分割

专知会员服务

44+阅读 · 2021年3月15日

【CVPR2021】用Transformers无监督预训练进行目标检测

【CVPR2021】用Transformers无监督预训练进行目标检测

专知会员服务

58+阅读 · 2021年3月3日

最新《Transformers模型》教程，64页ppt

最新《Transformers模型》教程，64页ppt

专知会员服务

321+阅读 · 2020年11月26日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知会员服务

33+阅读 · 2020年10月11日

CVPR 2020 论文开源项目合集

专知会员服务

110+阅读 · 2020年3月12日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型基准综述

《自适应训练辅助系统概念导论及其在空战指挥官加速培训中的应用》125页

【剑桥博士论文】多智能体学习中的神经多样性

以色列-伊朗空战：短暂而激烈冲突的启示

相关资讯

一文细数73个Vision transformer家族成员

一文细数73个Vision transformer家族成员

极市平台

0+阅读 · 2022年3月17日

ICLR 2022 | 新注意力！用于ViT的QuadTree Attention

ICLR 2022 | 新注意力！用于ViT的QuadTree Attention

CVer

0+阅读 · 2022年3月2日

SFU、阿里提出通用QuadTree Attention，复杂度变线性，性能还更强！ICLR 2022已接收

SFU、阿里提出通用QuadTree Attention，复杂度变线性，性能还更强！ICLR 2022已接收

新智元

0+阅读 · 2022年3月1日

当可变形注意力机制引入Vision Transformer

当可变形注意力机制引入Vision Transformer

极市平台

1+阅读 · 2022年1月23日

BERT/Transformer/迁移学习NLP资源大列表

BERT/Transformer/迁移学习NLP资源大列表

专知

19+阅读 · 2019年6月9日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【推荐】全卷积语义分割综述

【推荐】全卷积语义分割综述

机器学习研究会

19+阅读 · 2017年8月31日

【推荐】图像分类必读开创性论文汇总

【推荐】图像分类必读开创性论文汇总

机器学习研究会

14+阅读 · 2017年8月15日

相关论文

Not All Tokens Are Equal: Human-centric Visual Analysis via Token Clustering Transformer

Arxiv

0+阅读 · 2022年4月20日

Fourier Image Transformer

Arxiv

2+阅读 · 2022年4月19日

Multimodal Token Fusion for Vision Transformers

Arxiv

3+阅读 · 2022年4月19日

VSA: Learning Varied-Size Window Attention in Vision Transformers

VSA: Learning Varied-Size Window Attention in Vision Transformers

Arxiv

0+阅读 · 2022年4月18日

Dynamic Position Encoding for Transformers

Arxiv

1+阅读 · 2022年4月18日

Attention Mechanisms in Computer Vision: A Survey

Arxiv

58+阅读 · 2021年11月15日

Attention Bottlenecks for Multimodal Fusion

Arxiv

31+阅读 · 2021年6月30日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

Attention Is All You Need

Arxiv

27+阅读 · 2017年12月6日

相关基金

基于分层与或图模型的光学遥感图像场景理解方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于流域特性定量评估的东北河流氮磷基准研究

国家自然科学基金

0+阅读 · 2015年12月31日

交通网络、城市聚集对城市群经济增长的作用机制研究与模型化解释：以长三角城市群为例

国家自然科学基金

1+阅读 · 2014年12月31日

具有3D空间辨识力的视觉显著计算模型研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于遥感同化的PM2.5源清单优化方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

奇性空间上的几何分析

国家自然科学基金

0+阅读 · 2013年12月31日

基于影像关联层次模型的遥感影像检索研究

国家自然科学基金

1+阅读 · 2013年12月31日

ERG介导组蛋白修饰调控CRMP4失活启动前列腺癌转移的分子机制

国家自然科学基金

0+阅读 · 2012年12月31日

车载激光扫描点云与全景影像的高精度配准方法

国家自然科学基金

0+阅读 · 2012年12月31日

有限维Banach几何与关于凸体覆盖的Hadwiger猜想

国家自然科学基金

0+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员