【NeurIPS2021】ResT:一个有效的视觉识别转换器 - 专知

会员服务 ·

0

【NeurIPS2021】ResT:一个有效的视觉识别转换器

2021 年 10 月 25 日 专知

本文提出了一种高效的多尺度视觉转换器，称为ResT，可作为图像识别的通用骨干。现有的Transformer方法使用标准Transformer块来处理具有固定分辨率的原始图像，与之不同的是，我们的ResT有几个优点:(1)构建高效记忆的多头自注意，通过简单的深度卷积压缩记忆，在保持多头多样性的同时，在注意-多头维度上投射相互作用;(2)将位置编码构造为空间注意，更加灵活，可以处理任意尺寸的输入图像，无需插值或微调;(3)我们没有在每个阶段开始时直接进行标记化，而是将patch嵌入设计为在标记映射上进行跨步重叠卷积操作的堆栈。我们在图像分类和下游任务上全面验证了ResT。实验结果表明，提出的ResT可以在很大程度上超过最新的骨干技术，这表明ResT作为强大骨干的潜力。代码和模型将在https://github.com/wofmanaf/ResT上公开。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“RTR” 就可以获取《【NeurIPS2021】ResT:一个有效的视觉识别转换器》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

0

相关内容

REST

面向服务的前后端通信标准 Not React

【NeurIPS2021】去栅格化的矢量图识别

【NeurIPS2021】去栅格化的矢量图识别

专知会员服务

16+阅读 · 2021年11月18日

【NeurIPS2021】SOLQ：基于学习查询的物体分割

【NeurIPS2021】SOLQ：基于学习查询的物体分割

专知会员服务

10+阅读 · 2021年11月9日

【NeurIPS2021】神经解释器的动态推理

专知会员服务

15+阅读 · 2021年10月16日

【NeurIPS2021】多模态融合的注意力瓶颈

专知会员服务

63+阅读 · 2021年10月14日

【NeurIPS2021】模型可解释性的符号语言基础

专知会员服务

22+阅读 · 2021年10月8日

【ICML2021】生成式视频转换器Transformers: 物体可以是文字吗?

专知会员服务

13+阅读 · 2021年8月20日

【CVPR2021】通道注意力的高效移动网络设计

【CVPR2021】通道注意力的高效移动网络设计

专知会员服务

20+阅读 · 2021年4月27日

持续学习最新综述论文，29页pdf

持续学习最新综述论文，29页pdf

专知会员服务

120+阅读 · 2021年4月22日

【AAAI2021最佳论文】基于高效 Transformer 的长时间序列预测

【AAAI2021最佳论文】基于高效 Transformer 的长时间序列预测

专知会员服务

62+阅读 · 2021年2月6日

华为等发布《视觉Transformer转换器》综述论文，21页pdf

华为等发布《视觉Transformer转换器》综述论文，21页pdf

专知会员服务

86+阅读 · 2020年12月25日

【AAAI2021最佳论文】基于高效 Transformer 的长时间序列预测

【AAAI2021最佳论文】基于高效 Transformer 的长时间序列预测

专知

8+阅读 · 2021年2月6日

【NeurIPS2020 】数据扩充的图对比学习

【NeurIPS2020 】数据扩充的图对比学习

专知

9+阅读 · 2020年11月9日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

【NeurIPS2020】无限可能的联合对比学习

【NeurIPS2020】无限可能的联合对比学习

专知

3+阅读 · 2020年10月2日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

38+阅读 · 2020年9月30日

【NeurIPS2020】可处理反事实推断的深度结构因果模型

【NeurIPS2020】可处理反事实推断的深度结构因果模型

专知

7+阅读 · 2020年9月29日

【ECCV2020-Google】多模态Transformer视频检索，Multi-modal Transformer

【ECCV2020-Google】多模态Transformer视频检索，Multi-modal Transformer

专知

6+阅读 · 2020年7月22日

[ICML-Google]先宽后窄:对深度薄网络的有效训练

[ICML-Google]先宽后窄:对深度薄网络的有效训练

专知

3+阅读 · 2020年7月5日

使用Pytorch进行姿态估计

使用Pytorch进行姿态估计

专知

9+阅读 · 2020年6月13日

注意力图神经网络的多标签文本分类

注意力图神经网络的多标签文本分类

专知

8+阅读 · 2020年3月28日

JoJoGAN: One Shot Face Stylization

Arxiv

0+阅读 · 2022年2月2日

ResT: An Efficient Transformer for Visual Recognition

Arxiv

3+阅读 · 2021年10月14日

Hierarchical Conditional Flow: A Unified Framework for Image Super-Resolution and Image Rescaling

Hierarchical Conditional Flow: A Unified Framework for Image Super-Resolution and Image Rescaling

Arxiv

7+阅读 · 2021年8月11日

Deformable Style Transfer

Deformable Style Transfer

Arxiv

14+阅读 · 2020年3月24日

Memory Augmented Graph Neural Networks for Sequential Recommendation

Memory Augmented Graph Neural Networks for Sequential Recommendation

Arxiv

13+阅读 · 2019年12月26日

Local Relation Networks for Image Recognition

Local Relation Networks for Image Recognition

Arxiv

4+阅读 · 2019年4月25日

Meta-Transfer Learning for Few-Shot Learning

Meta-Transfer Learning for Few-Shot Learning

Arxiv

4+阅读 · 2019年4月9日

Reproducibility Report for "Learning To Count Objects In Natural Images For Visual Question Answering"

Reproducibility Report for "Learning To Count Objects In Natural Images For Visual Question Answering"

Arxiv

4+阅读 · 2018年5月21日

Learning to Guide Decoding for Image Captioning

Arxiv

6+阅读 · 2018年4月3日

Fluency-Guided Cross-Lingual Image Captioning

Arxiv

3+阅读 · 2017年8月15日

VIP会员

相关主题

相关VIP内容

【NeurIPS2021】去栅格化的矢量图识别

【NeurIPS2021】去栅格化的矢量图识别

专知会员服务

16+阅读 · 2021年11月18日

【NeurIPS2021】SOLQ：基于学习查询的物体分割

【NeurIPS2021】SOLQ：基于学习查询的物体分割

专知会员服务

10+阅读 · 2021年11月9日

【NeurIPS2021】神经解释器的动态推理

专知会员服务

15+阅读 · 2021年10月16日

【NeurIPS2021】多模态融合的注意力瓶颈

专知会员服务

63+阅读 · 2021年10月14日

【NeurIPS2021】模型可解释性的符号语言基础

专知会员服务

22+阅读 · 2021年10月8日

【ICML2021】生成式视频转换器Transformers: 物体可以是文字吗?

专知会员服务

13+阅读 · 2021年8月20日

【CVPR2021】通道注意力的高效移动网络设计

【CVPR2021】通道注意力的高效移动网络设计

专知会员服务

20+阅读 · 2021年4月27日

持续学习最新综述论文，29页pdf

持续学习最新综述论文，29页pdf

专知会员服务

120+阅读 · 2021年4月22日

【AAAI2021最佳论文】基于高效 Transformer 的长时间序列预测

【AAAI2021最佳论文】基于高效 Transformer 的长时间序列预测

专知会员服务

62+阅读 · 2021年2月6日

华为等发布《视觉Transformer转换器》综述论文，21页pdf

华为等发布《视觉Transformer转换器》综述论文，21页pdf

专知会员服务

86+阅读 · 2020年12月25日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

【AAAI2021最佳论文】基于高效 Transformer 的长时间序列预测

【AAAI2021最佳论文】基于高效 Transformer 的长时间序列预测

专知

8+阅读 · 2021年2月6日

【NeurIPS2020 】数据扩充的图对比学习

【NeurIPS2020 】数据扩充的图对比学习

专知

9+阅读 · 2020年11月9日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

【NeurIPS2020】无限可能的联合对比学习

【NeurIPS2020】无限可能的联合对比学习

专知

3+阅读 · 2020年10月2日

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

【NeurIPS2020-MIT】子图神经网络，Subgraph Neural Networks

专知

38+阅读 · 2020年9月30日

【NeurIPS2020】可处理反事实推断的深度结构因果模型

【NeurIPS2020】可处理反事实推断的深度结构因果模型

专知

7+阅读 · 2020年9月29日

【ECCV2020-Google】多模态Transformer视频检索，Multi-modal Transformer

【ECCV2020-Google】多模态Transformer视频检索，Multi-modal Transformer

专知

6+阅读 · 2020年7月22日

[ICML-Google]先宽后窄:对深度薄网络的有效训练

[ICML-Google]先宽后窄:对深度薄网络的有效训练

专知

3+阅读 · 2020年7月5日

使用Pytorch进行姿态估计

使用Pytorch进行姿态估计

专知

9+阅读 · 2020年6月13日

注意力图神经网络的多标签文本分类

注意力图神经网络的多标签文本分类

专知

8+阅读 · 2020年3月28日

相关论文

JoJoGAN: One Shot Face Stylization

Arxiv

0+阅读 · 2022年2月2日

ResT: An Efficient Transformer for Visual Recognition

Arxiv

3+阅读 · 2021年10月14日

Hierarchical Conditional Flow: A Unified Framework for Image Super-Resolution and Image Rescaling

Hierarchical Conditional Flow: A Unified Framework for Image Super-Resolution and Image Rescaling

Arxiv

7+阅读 · 2021年8月11日

Deformable Style Transfer

Deformable Style Transfer

Arxiv

14+阅读 · 2020年3月24日

Memory Augmented Graph Neural Networks for Sequential Recommendation

Memory Augmented Graph Neural Networks for Sequential Recommendation

Arxiv

13+阅读 · 2019年12月26日

Local Relation Networks for Image Recognition

Local Relation Networks for Image Recognition

Arxiv

4+阅读 · 2019年4月25日

Meta-Transfer Learning for Few-Shot Learning

Meta-Transfer Learning for Few-Shot Learning

Arxiv

4+阅读 · 2019年4月9日

Reproducibility Report for "Learning To Count Objects In Natural Images For Visual Question Answering"

Reproducibility Report for "Learning To Count Objects In Natural Images For Visual Question Answering"

Arxiv

4+阅读 · 2018年5月21日

Learning to Guide Decoding for Image Captioning

Arxiv

6+阅读 · 2018年4月3日

Fluency-Guided Cross-Lingual Image Captioning

Arxiv

3+阅读 · 2017年8月15日

大家都在搜

久别重逢话双塔

CMU博士论文

无人机集群

国防科技创新

软件无线电

再见，TD-SCDMA！

微信扫码咨询专知VIP会员