Transformers have been successful in many vision tasks, thanks to their capability of capturing long-range dependency. However, their quadratic computational complexity poses a major obstacle for applying them to vision tasks requiring dense predictions, such as object detection, feature matching, stereo, etc. We introduce QuadTree Attention, which reduces the computational complexity from quadratic to linear. Our quadtree transformer builds token pyramids and computes attention in a coarse-to-fine manner. At each level, the top K patches with the highest attention scores are selected, such that at the next level, attention is only evaluated within the relevant regions corresponding to these top K patches. We demonstrate that quadtree attention achieves state-of-the-art performance in various vision tasks, e.g. with 4.0% improvement in feature matching on ScanNet, about 50% flops reduction in stereo matching, 0.4-1.5% improvement in top-1 accuracy on ImageNet classification, 1.2-1.8% improvement on COCO object detection, and 0.7-2.4% improvement on semantic segmentation over previous state-of-the-art transformers. The codes are available at https://github.com/Tangshitao/QuadtreeAttention}{https://github.com/Tangshitao/QuadtreeAttention.


翻译:由于能够捕捉长距离依赖性,变形器在许多视觉任务中都取得了成功。然而,它们的二次计算复杂性对于将它们应用到需要密集预测的视觉任务,例如物体探测、特征匹配、立体等,构成了一个重大障碍。 我们引入了QuadTree 注意, 将计算复杂性从二次变线降低到线性。 我们的四叶变形器以粗略到线性的方式建立了象征性的金字塔, 以粗略的方式计算了注意力。 在每个级别, 都选择了关注分数最高的顶级 K 补丁, 从而在下一个级别, 仅对与这些顶级K 补形相匹配的相关区域进行关注度评估。 我们证明四叶的注意在各种视觉任务中达到最先进的表现, 例如, 使ScanNet的功能匹配率提高了4.0%, 立体匹配率降低了约50%, 图像网分类的顶级一精度提高了0.4-1.5 %, CO对象探测改进了1.2-1.8% 目标值, 而在下一个级别上, 也只对与这些顶级K级变形图/AtreastistereabasionAmatoshimax/Q.

0
下载
关闭预览

相关内容

【NeurIPS 2021】寻找视觉Transformer的搜索空间
专知会员服务
13+阅读 · 2021年12月1日
专知会员服务
29+阅读 · 2021年7月30日
专知会员服务
33+阅读 · 2021年5月12日
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
56+阅读 · 2021年3月3日
最新《Transformers模型》教程,64页ppt
专知会员服务
306+阅读 · 2020年11月26日
专知会员服务
109+阅读 · 2020年3月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
一文细数73个Vision transformer家族成员
极市平台
0+阅读 · 2022年3月17日
当可变形注意力机制引入Vision Transformer
极市平台
1+阅读 · 2022年1月23日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Arxiv
2+阅读 · 2022年4月19日
Arxiv
3+阅读 · 2022年4月19日
Arxiv
1+阅读 · 2022年4月18日
Arxiv
58+阅读 · 2021年11月15日
Arxiv
31+阅读 · 2021年6月30日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
27+阅读 · 2017年12月6日
VIP会员
相关VIP内容
【NeurIPS 2021】寻找视觉Transformer的搜索空间
专知会员服务
13+阅读 · 2021年12月1日
专知会员服务
29+阅读 · 2021年7月30日
专知会员服务
33+阅读 · 2021年5月12日
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
56+阅读 · 2021年3月3日
最新《Transformers模型》教程,64页ppt
专知会员服务
306+阅读 · 2020年11月26日
专知会员服务
109+阅读 · 2020年3月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
一文细数73个Vision transformer家族成员
极市平台
0+阅读 · 2022年3月17日
当可变形注意力机制引入Vision Transformer
极市平台
1+阅读 · 2022年1月23日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
相关论文
Arxiv
2+阅读 · 2022年4月19日
Arxiv
3+阅读 · 2022年4月19日
Arxiv
1+阅读 · 2022年4月18日
Arxiv
58+阅读 · 2021年11月15日
Arxiv
31+阅读 · 2021年6月30日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
27+阅读 · 2017年12月6日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员