Swin Transformer重磅升级！Swin V2：向更大容量、更高分辨率的更大模型迈进

本文提出一种升级版SwinTransformerV2，最高参数量可达3 Billion，可处理尺寸图像。通过提升模型容量与输入分辨率，SwinTransformer在四个代表性基准数据集上取得了新记录：84.%@ImageNetV2、63.1 box 与54.4 max mAP@COCO、59.9mIoU@ADE20K以及86.8%@Kinetics-400(视频动作分类)。

所提技术可以广泛用于视觉模型缩放，Transformer的缩放技术再NLP语言建模中已得到广泛探索，但在视觉任务中尚未进行。主要是因为以下几点训练与应用难题：

视觉模型通常面临尺度不稳定问题；

下游任务需要高分辨率图像，尚不明确如何将低分辨率预训练模型迁移为高分辨率版本；

此外，当图像分辨率非常大时，GPU显存占用也是个问题。

为解决上述问题，我们以SwinTransformer作为基线，提出了几种改进技术：

提出后规范化(Post Normalization)技术与可缩放(Scaled)cosine注意力提升大视觉模型的稳定性;

提出log空间连续位置偏置技术进行低分辨率预训练模型向高分辨率模型迁移。

此外，我们还共享了至关重要的实现细节，它可以大幅节省GPU显存占用以使得大视觉模型训练变得可行。

基于上述技术与自监督预训练，我们成功训练了一个包含3B参数量的SwinTransformer模型并将其迁移到不同的高分辨率输入的下游任务上，取得了SOTA性能。

成为VIP会员查看完整内容

知识荟萃

精品入门和进阶教程、论文和代码整理等

查看相关VIP内容、论文、资讯等

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

专知会员服务

24+阅读 · 2021年12月11日

NeurIPS 2021 | 又一超强视觉Transformer主干！HRFormer：学习高分辨率表征

专知会员服务

18+阅读 · 2021年12月8日

结构化剪枝综述

专知会员服务

49+阅读 · 2021年11月18日

【NeurIPS2021】去掉softmax后Transformer会更好吗？复旦&华为诺亚提出SOFT：轻松搞定线性近似

专知会员服务

20+阅读 · 2021年10月26日

【KDD2021】TUTA: 通用表格预训练的树结构Transformer

专知会员服务

25+阅读 · 2021年8月22日

【ICCV 2021 】Vision Transformer中的相对位置编码

专知会员服务

30+阅读 · 2021年7月30日

【ICML2021】突破图神经网络中消息传递的限制

专知会员服务

41+阅读 · 2021年6月10日

【DeepMind】无归一化的高性能大规模图像识别

专知会员服务

9+阅读 · 2021年2月14日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

Reformer：一个高效的 Transformer

TensorFlow

9+阅读 · 2020年2月13日

韩松等人提出NN设计新思路：训练一次，全平台应用

机器之心

8+阅读 · 2019年8月30日

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

机器之心

15+阅读 · 2019年7月13日

谷歌将AutoML应用于Transformer架构，翻译结果飙升，已开源！

数据派THU

5+阅读 · 2019年6月21日

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

微软研究院AI头条

14+阅读 · 2019年5月21日

OpenAI新研究补齐Transformer短板，将可预测序列长度提高30倍

机器之心

6+阅读 · 2019年4月24日

雷军强推：小米造最强超分辨率算法，现已开源

机器之心

7+阅读 · 2019年2月20日

何恺明等最新突破：视频识别快慢结合，取得人体动作AVA数据集最佳水平

极市平台

6+阅读 · 2018年12月24日

Facebook何恺明团队提出SlowFast网络，视频识别无需预训练

AI前线

10+阅读 · 2018年12月23日

FAIR何恺明等人提出组归一化：替代批归一化，不受批量大小限制

机器之心

4+阅读 · 2018年3月23日

TerViT: An Efficient Ternary Vision Transformer

Arxiv

0+阅读 · 2022年1月21日

Swin Transformer V2: Scaling Up Capacity and Resolution

Arxiv

7+阅读 · 2021年11月18日

Transformer in Transformer

Arxiv

11+阅读 · 2021年10月26日

A Survey on Visual Transformer

Arxiv

19+阅读 · 2020年12月23日

TinyBERT: Distilling BERT for Natural Language Understanding

Arxiv

11+阅读 · 2019年9月23日

Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT

Arxiv

3+阅读 · 2019年9月12日

Fast AutoAugment

Arxiv

5+阅读 · 2019年5月1日

The Evolved Transformer

Arxiv

5+阅读 · 2019年1月30日

Rethinking ImageNet Pre-training

Arxiv

8+阅读 · 2018年11月21日

ParaNMT-50M: Pushing the Limits of Paraphrastic Sentence Embeddings with Millions of Machine Translations

Arxiv

3+阅读 · 2018年4月20日

相关内容

知识荟萃

更多