本文提出一种升级版SwinTransformerV2,最高参数量可达3 Billion,可处理尺寸图像。通过提升模型容量与输入分辨率,SwinTransformer在四个代表性基准数据集上取得了新记录:84.%@ImageNetV2、63.1 box 与54.4 max mAP@COCO、59.9mIoU@ADE20K以及86.8%@Kinetics-400(视频动作分类)。

所提技术可以广泛用于视觉模型缩放,Transformer的缩放技术再NLP语言建模中已得到广泛探索,但在视觉任务中尚未进行。主要是因为以下几点训练与应用难题:

视觉模型通常面临尺度不稳定 问题;

下游任务需要高分辨率图像,尚不明确如何将低分辨率预训练模型迁移为高分辨率版本 ;

此外,当图像分辨率非常大时,GPU显存占用 也是个问题。

为解决上述问题,我们以SwinTransformer作为基线,提出了几种改进技术:

提出后规范化(Post Normalization)技术 与可缩放(Scaled)cosine注意力提升大视觉模型的稳定性;

提出log空间连续位置偏置 技术进行低分辨率预训练模型向高分辨率模型迁移。

此外,我们还共享了至关重要的实现细节 ,它可以大幅节省GPU显存占用以使得大视觉模型训练变得可行。

基于上述技术与自监督预训练,我们成功训练了一个包含3B参数量的SwinTransformer模型并将其迁移到不同的高分辨率输入的下游任务上,取得了SOTA性能。

成为VIP会员查看完整内容
26

相关内容

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【AAAI2022】基于双流更新的视觉Transformer动态加速方法
专知会员服务
23+阅读 · 2021年12月11日
结构化剪枝综述
专知会员服务
48+阅读 · 2021年11月18日
专知会员服务
24+阅读 · 2021年8月22日
专知会员服务
29+阅读 · 2021年7月30日
专知会员服务
40+阅读 · 2021年6月10日
【DeepMind】无归一化的高性能大规模图像识别
专知会员服务
8+阅读 · 2021年2月14日
专知会员服务
44+阅读 · 2020年3月6日
Reformer:一个高效的 Transformer
TensorFlow
9+阅读 · 2020年2月13日
雷军强推:小米造最强超分辨率算法,现已开源
机器之心
7+阅读 · 2019年2月20日
Arxiv
0+阅读 · 2022年1月21日
Swin Transformer V2: Scaling Up Capacity and Resolution
Arxiv
11+阅读 · 2021年10月26日
Arxiv
19+阅读 · 2020年12月23日
Fast AutoAugment
Arxiv
5+阅读 · 2019年5月1日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Arxiv
8+阅读 · 2018年11月21日
VIP会员
相关VIP内容
【AAAI2022】基于双流更新的视觉Transformer动态加速方法
专知会员服务
23+阅读 · 2021年12月11日
结构化剪枝综述
专知会员服务
48+阅读 · 2021年11月18日
专知会员服务
24+阅读 · 2021年8月22日
专知会员服务
29+阅读 · 2021年7月30日
专知会员服务
40+阅读 · 2021年6月10日
【DeepMind】无归一化的高性能大规模图像识别
专知会员服务
8+阅读 · 2021年2月14日
专知会员服务
44+阅读 · 2020年3月6日
相关论文
Arxiv
0+阅读 · 2022年1月21日
Swin Transformer V2: Scaling Up Capacity and Resolution
Arxiv
11+阅读 · 2021年10月26日
Arxiv
19+阅读 · 2020年12月23日
Fast AutoAugment
Arxiv
5+阅读 · 2019年5月1日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Arxiv
8+阅读 · 2018年11月21日
微信扫码咨询专知VIP会员