本文提出了一种高效的多尺度视觉转换器,称为ResT,可作为图像识别的通用骨干。现有的Transformer方法使用标准Transformer块来处理具有固定分辨率的原始图像,与之不同的是,我们的ResT有几个优点:(1)构建高效记忆的多头自注意,通过简单的深度卷积压缩记忆,在保持多头多样性的同时,在注意-多头维度上投射相互作用;(2)将位置编码构造为空间注意,更加灵活,可以处理任意尺寸的输入图像,无需插值或微调;(3)我们没有在每个阶段开始时直接进行标记化,而是将patch嵌入设计为在标记映射上进行跨步重叠卷积操作的堆栈。我们在图像分类和下游任务上全面验证了ResT。实验结果表明,提出的ResT可以在很大程度上超过最新的骨干技术,这表明ResT作为强大骨干的潜力。代码和模型将在https://github.com/wofmanaf/ResT上公开。

成为VIP会员查看完整内容
22

相关内容

【AAAI2022】基于双流更新的视觉Transformer动态加速方法
专知会员服务
23+阅读 · 2021年12月11日
【NeurIPS 2021】寻找视觉Transformer的搜索空间
专知会员服务
13+阅读 · 2021年12月1日
【NeurIPS2021】去栅格化的矢量图识别
专知会员服务
15+阅读 · 2021年11月18日
【NeurIPS2021】用于视频分割的密集无监督学习
专知会员服务
14+阅读 · 2021年11月14日
专知会员服务
14+阅读 · 2021年10月16日
专知会员服务
62+阅读 · 2021年10月14日
专知会员服务
11+阅读 · 2021年9月10日
专知会员服务
20+阅读 · 2021年4月2日
【NeurIPS2020】图网的主邻域聚合
专知会员服务
32+阅读 · 2020年9月27日
系列教程GNN-algorithms之六:《多核卷积拓扑图—TAGCN》
专知会员服务
49+阅读 · 2020年8月8日
深度 | 图像语义分割的工作原理和CNN架构变迁
机器之心
9+阅读 · 2018年6月13日
Arxiv
0+阅读 · 2021年12月17日
Arxiv
3+阅读 · 2021年10月14日
Arxiv
5+阅读 · 2021年9月30日
Arxiv
9+阅读 · 2021年2月8日
Contrastive Representation Distillation
Arxiv
5+阅读 · 2019年10月23日
Arxiv
136+阅读 · 2018年10月8日
VIP会员
相关VIP内容
【AAAI2022】基于双流更新的视觉Transformer动态加速方法
专知会员服务
23+阅读 · 2021年12月11日
【NeurIPS 2021】寻找视觉Transformer的搜索空间
专知会员服务
13+阅读 · 2021年12月1日
【NeurIPS2021】去栅格化的矢量图识别
专知会员服务
15+阅读 · 2021年11月18日
【NeurIPS2021】用于视频分割的密集无监督学习
专知会员服务
14+阅读 · 2021年11月14日
专知会员服务
14+阅读 · 2021年10月16日
专知会员服务
62+阅读 · 2021年10月14日
专知会员服务
11+阅读 · 2021年9月10日
专知会员服务
20+阅读 · 2021年4月2日
【NeurIPS2020】图网的主邻域聚合
专知会员服务
32+阅读 · 2020年9月27日
系列教程GNN-algorithms之六:《多核卷积拓扑图—TAGCN》
专知会员服务
49+阅读 · 2020年8月8日
相关论文
Arxiv
0+阅读 · 2021年12月17日
Arxiv
3+阅读 · 2021年10月14日
Arxiv
5+阅读 · 2021年9月30日
Arxiv
9+阅读 · 2021年2月8日
Contrastive Representation Distillation
Arxiv
5+阅读 · 2019年10月23日
Arxiv
136+阅读 · 2018年10月8日
微信扫码咨询专知VIP会员