训练ViT和MAE减少一半计算量！Sea和北大提出新优化器Adan：深度模型都能用！

会员服务 ·

训练ViT和MAE减少一半计算量！Sea和北大提出新优化器Adan：深度模型都能用！

2022 年 10 月 31 日 极市平台

↑ 点击蓝字关注极市平台

作者丨LRS 好困

来源丨新智元

编辑丨极市平台

极市导读

换个优化器，计算量少一半。>>加入极市CV技术交流群，走在计算机视觉的最前沿

自Google提出Vision Transformer(ViT)以来，ViT渐渐成为许多视觉任务的默认backbone。凭借着ViT结构，许多视觉任务的SoTA都得到了进一步提升，包括图像分类、分割、检测、识别等。

然而，训练ViT并非易事。除了需要较复杂的训练技巧，模型训练的计算量往往也较之前的CNN大很多。近日，新加坡Sea AI LAB (SAIL) 和北大ZERO Lab的研究团队共同提出新的深度模型优化器Adan，该优化器可以仅用一半的计算量就能完成ViT的训练。

论文链接：https://arxiv.org/abs/2208.06677

代码链接：https://github.com/sail-sg/Adan

此外，在计算量一样的情况下， Adan在多个场景（涉及CV、NLP、RL）、多种训练方式（有监督与自监督）和多种网络结构/算法（Swin、ViT、ResNet、ConvNext、MAE、LSTM、BERT、Transformer-XL、PPO算法）上，均获得了性能提升。

代码、配置文件、训练log均已开源。

深度模型的训练范式与优化器

随着ViT的提出，深度模型的训练方式变得越来越复杂。常见的训练技巧包括复杂的数据增强（如MixUp、CutMix、AutoRand）、标签的处理（如label smoothing和noise label）、模型参数的移动平均、随机网络深度、dropout等。伴随着这些技巧的混合运用，模型的泛化性与鲁棒性均得到了提升，但是随之而来的便是模型训练的计算量变得越来越大。

在ImageNet 1k上，训练epoch数从ResNet刚提出的90已经增长到了训练ViT常用的300。甚至针对一些自监督学习的模型，例如MAE、ViT，预训练的epoch数已经达到了1.6k。训练epoch增加意味着训练时间极大的延长，急剧增加了学术研究或工业落地的成本。目前一个普遍的解决方案是增大训练的batch size并辅助并行训练以减少训练时间，但是伴随的问题便是，大的batch size往往意味着performance的下降，并且batch size越大，情况越明显。

这主要是因为模型参数的更新次数随着batch size的增加在急剧减少。当前的优化器并不能在复杂的训练范式下以较少的更新次数实现对模型的快速训练，这进一步加剧了模型训练epoch数的增长。

因此，是否存在一种新的优化器能在较少的参数更新次数情况下更快更好地训练深度模型？在减少训练epoch数的同时，也能缓解batch size增加带来的负面影响？

被忽略的冲量

要想加速优化器的收敛速度，最直接的方法便是引入冲量。近年提出的深度模型优化器均沿用着Adam中使用的冲量范式——重球法：

其中g_k是随机噪声，m_k是moment，eta是学习率。Adam将m_k的更新由累积形式换成了移动平均的形式，并引入二阶moment（n_k）对学习率进行放缩，即：

然而随着Adam训练原始ViT失败，它的改进版本AdamW渐渐地变成了训练ViT甚至ConvNext的首选。但是AdamW并没有改变Adam中的冲量范式，因此在当batch size超过4,096的时候，AdamW训练出的ViT的性能会急剧下降。

在传统凸优化领域，有一个与重球法齐名的冲量技巧——Nesterov冲量算法：

Nesterov冲量算法在光滑且一般凸的问题上，拥有比重球法更快的理论收敛速度，并且理论上也能承受更大的batch size。同重球法不同的是，Nesterov算法不在当前点计算梯度，而是利用冲量找到一个外推点，在该点算完梯度以后再进行冲量累积。

外推点能帮助Nesterov算法提前感知当前点周围的几何信息。这种特性使得Nesterov冲量更加适合复杂的训练范式和模型结构（如ViT），因为它并不是单纯地依靠过去的冲量去绕开尖锐的局部极小点，而是通过提前观察周围的梯度，调整更新的方向。

尽管Nesterov冲量算法拥有一定的优势，但是在深度优化器中，却鲜有被应用与探索。其中一个主要的原因就是Nesterov算法需要在外推点计算梯度，在当前点更新，期间需要多次模型参数重载以及需要人为地在外推点进行back-propagation (BP)。这些不便利性极大地限制了Nesterov冲量算法在深度模型优化器中的应用。

Adan优化器

通过结合改写的Nesterov冲量与自适应优化算法，并引入解耦的权重衰减，可以得到最终的Adan优化器。利用外推点，Adan可以提前感知周围的梯度信息，从而高效地逃离尖锐的局部极小区域，以增加模型的泛化性。

1) 自适应的Nesterov冲量

为了解决Nesterov冲量算法中多次模型参数重载的问题，研究人员首先对Nesterov进行改写：

可以证明，改写的Nesterov冲量算法与原算法等价，两者的迭代点可以相互转化，且最终的收敛点相同。可以看到，通过引入梯度的差分项，已经可以避免手动的参数重载和人为地在外推点进行BP。

将改写的Nesterov冲量算法同自适应类优化器相结合——将m_k的更新由累积形式替换为移动平均形式，并使用二阶moment对学习率进行放缩：

至此已经得到了Adan的算法的基础版本。

2) 梯度差分的冲量

可以发现，m_k的更新将梯度与梯度的差分耦合在一起，但是在实际场景中，往往需要对物理意义不同的两项进行单独处理，因此研究人员引入梯度差分的冲量v_k：

这里对梯度的冲量和其差分的冲量设置不同的冲量/平均系数。梯度差分项可以在相邻梯度不一致的时候减缓优化器的更新，反之，在梯度方向一致时，加速更新。

3) 解耦的权重衰减

对于带L2权重正则的目标函数，目前较流行的AdamW优化器通过对L2正则与训练loss解耦，在ViT和ConvNext上获得了较好的性能。但是AdamW所用的解耦方法偏向于启发式，目前并不能得到其收敛的理论保证。

基于对L2正则解耦的思想，也给Adan引入解耦的权重衰减策略。目前Adan的每次迭代可以看成是在最小化优化目标F的某种一阶近似：

由于F中的L2权重正则过于简单且光滑性很好，以至于不需要对其进行一阶近似。因此，可以只对训练loss进行一阶近似而忽略L2权重正则，那么Adan的最后一步迭代将会变成：

有趣的是，可以发现AdamW的更新准则是Adan更新准则在学习率eta接近0时的一阶近似。因此，可从proximal 算子的角度给Adan甚至AdamW给出合理的解释而不是原来的启发式改进。

4) Adan优化器

将2）和3）两个改进结合进Adan的基础版本，可以得到如下的Adan优化器。

Adan结合了自适应优化器、Nesterov冲量以及解耦的权重衰减策略的优点，能承受更大的学习率和batch size，以及可以实现对模型参数的动态L2正则。

5) 收敛性分析

这里跳过繁复的数学分析过程，只给出结论：

定理：在给定或未给定Hessian-smooth条件的两种情况下，Adan优化器的收敛速度在非凸随机优化问题上均能达到已知的理论下界，并且该结论在带有解耦的权重衰减策略时仍然成立。

实验结果

一、CV场景

1）有监督学习——ViT模型

针对ViT模型，研究人员分别在ViT和Swin结构上，测试了Adan的性能。

可以看到，例如在ViT-small、ViT-base、Swin-tiny以及Swin-base上，Adan仅仅消耗了一半的计算资源就获得了同SoTA优化器接近的结果，并且在同样的计算量下，Adan在两种ViT模型上均展现出较大的优势。

此外，也在大batch size下测试了Adan的性能：

可以看到，Adan在各种batch size下都表现得不错，且相对于专为大batch size设计的优化器（LAMB）也具有一定的优势。

2）有监督学习——CNN模型

除了较难训练的ViT模型，研究人员也在尖锐局部极小点相对较少的CNN模型上也测试了Adan的性能——包括经典的ResNet与较先进的ConvNext。结果如下：

可以观察到，不管是ResNet还是ConvNext，Adan均能在大约2/3训练epoch以内获得超越SoTA的性能。

3) 无监督学习

在无监督训练框架下，研究人员在最新提出的MAE上测试了Adan的表现。其结果如下：

同有监督学习的结论一致，Adan仅消耗了一半的计算量就追平甚至超过了原来的SoTA优化器，并且当训练epoch越小，Adan的优势就越明显。

二、NLP场景

1) 有监督学习

在NLP的有监督学习任务上，分别在经典的LSTM以及先进的Transformer-XL上观察Adan的表现。

Adan在上述两种网络上，均表现出一致的优越性。并且对于Transformer-XL，Adan在一半的训练步数内就追平了默认的Adam优化器。

2) 无监督学习

为了测试Adan在NLP场景下无监督任务上的模型训练情况。研究人员从头开始训练BERT：在经过1000k的预训练迭代后，在GLUE数据集的7个子任务上测试经过Adan训练的模型性能，结果如下：

Adan在所测试的7个词句分类任务上均展现出较大的优势。值得一提的是，经过Adan训练的BERT-base模型，在一些子任务上（例如RTE、CoLA以及SST-2）的结果甚至超过了Adam训练的BERT-large.

三、RL场景

研究人员将RL常用的PPO算法里的优化器替换为了Adan，并在MuJoCo引擎中的4个游戏上测试了Adan的性能。在4个游戏中，用Adan作为网络优化器的PPO算法，总能获得较高的reward。

Adan在RL的网络训练中，也表现出较大的潜力。

结论与展望

Adan优化器为目前的深度模型优化器引入了新的冲量范式。在复杂的训练范式下以较少的更新次数实现对模型的快速训练。

实验显示，Adan仅需1/2-2/3的计算量就能追平现有的SoTA优化器。

Adan在多个场景（涉及CV、NLP、RL）、多个训练方式（有监督与自监督）和多种网络结构（ViT、CNN、LSTM、Transformer等）上，均展现出较大的性能优势。此外，Adan优化器的收敛速度在非凸随机优化上也已经达到了理论下界。

公众号后台回复“剑桥报告”获取2022年剑桥AI全景报告～

△点击卡片关注极市平台，获取最新CV干货

极市干货

算法竞赛：往届获奖方案总结以及经验详解｜ACCV2022国际细粒度图像分析挑战赛

技术综述： BEV 学术界和工业界方案、优化方法与tricks综述 ｜ PyTorch下的可视化工具（网络结构/训练过程可视化）

极视角动态：极视角与华为联合发布基于昇腾AI的「AICE赋能行业解决方案」｜算法误报怎么办？自训练工具使得算法迭代效率提升50%！

# CV技术社群邀请函 #

△长按添加极市小助手

添加极市小助手微信（ID : cvmart2）

备注：姓名-学校/公司-研究方向-城市（如：小极-北大-目标检测-深圳）

即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群

极市&深大CV技术交流群已创建，欢迎深大校友加入，在群内自由交流学术心得，分享学术讯息，共建良好的技术交流氛围。

“

点击阅读原文进入CV社区

收获更多技术干货

登录查看更多

相关内容

优化器

关注 4

【NeurIPS 2022】Stable Diffusion采样速度翻倍！清华提出扩散模型高效求解器

专知会员服务

49+阅读 · 2022年11月17日

【NeurIPS2022】不用微调的加速大规模视觉Transformer的密集预测

专知会员服务

14+阅读 · 2022年10月5日

【ECCV2022】UniNet:具有卷积、Transformer和MLP的统一架构搜索

专知会员服务

30+阅读 · 2022年7月15日

CVPR 2022 | 利用递归 “瞥视” 解码器优化基于Transformer的目标检测算法

专知会员服务

11+阅读 · 2022年4月15日

【ICLR2022】UniFormer：无缝集成 Transformer，更高效的时空表征学习框架

专知会员服务

50+阅读 · 2022年2月16日

AAAI 2022 | 在图像级弱监督语义分割这项CV难题上，字节跳动做到了性能显著提升

专知会员服务

19+阅读 · 2022年1月7日

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

专知会员服务

24+阅读 · 2021年12月11日

何恺明团队新论文！自监督学习+Transformer=MoCoV3，解决训练不稳定性

专知会员服务

37+阅读 · 2021年4月7日

【ICML 2020】设置LayerNorm使Transformer加速收敛

专知会员服务

16+阅读 · 2020年7月27日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

训练ViT和MAE减少一半计算量！Sea和北大联合提出高效优化器Adan，深度模型都能用

新智元

0+阅读 · 2022年10月26日

ToMe：我的方法无需训练即可加速 ViT 模型｜搞懂Transformer系列

极市平台

3+阅读 · 2022年10月25日

不堆参数、不靠时长，Meta加速ViT训练流程，吞吐量4倍提升

机器之心

0+阅读 · 2022年5月26日

超越所有微调方法，参数量大幅减少，康奈尔大学等提出视觉prompt新方法

机器之心

0+阅读 · 2022年5月4日

浅谈混合精度训练imagenet

极市平台

1+阅读 · 2022年5月3日

1000层 Transformer 也能稳定训练？详解微软亚研院提出新工作DeepNet

极市平台

0+阅读 · 2022年3月3日

91.2%准确率！ViTAEv2：视觉Transformer新工作！更大模型、更多任务、更高效率

CVer

0+阅读 · 2022年2月25日

深度了解自监督学习，就看这篇解读！何恺明新作MAE：通向CV大模型

极市平台

0+阅读 · 2021年11月21日

一训练就显存爆炸？Facebook 推出 8 比特优化器，两行代码拯救你的显存！

夕小瑶的卖萌屋

0+阅读 · 2021年11月11日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

基于多通道深度卷积神经网络的人体行为分析研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

移动融合网中随机拓扑缩放律研究

国家自然科学基金

0+阅读 · 2014年12月31日

非局部总变差正则化图像恢复模型的快速子空间校正算法

国家自然科学基金

0+阅读 · 2014年12月31日

几何约束求解新方法的研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于自适应神经网络的小型无人机高精度控制方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于EEG和fNIRS的多模态脑机接口运动想象参数研究

国家自然科学基金

1+阅读 · 2012年12月31日

多目标图像分割的稀疏表示方法

国家自然科学基金

0+阅读 · 2012年12月31日

基于二维随机映射和一范数优化的有监督图像分类研究

国家自然科学基金

3+阅读 · 2011年12月31日

基于改进的支持向量机在语音识别中的应用研究

国家自然科学基金

0+阅读 · 2009年12月31日

High-productivity, high-performance workflow for virus-scale electrostatic simulations with Bempp-Exafmm

Arxiv

0+阅读 · 2022年12月25日

Enforcing connectivity of 3D linear structures using their 2D projections

Arxiv

0+阅读 · 2022年12月24日

Text classification in shipping industry using unsupervised models and Transformer based supervised models

Arxiv

0+阅读 · 2022年12月21日

Intransitively winning chess players positions

Arxiv

0+阅读 · 2022年12月11日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

Dense Contrastive Learning for Self-Supervised Visual Pre-Training

Arxiv

18+阅读 · 2021年4月4日

Go Wide, Then Narrow: Efficient Training of Deep Thin Networks

Arxiv

15+阅读 · 2020年7月1日

Data Augmentation using Pre-trained Transformer Models

Arxiv

17+阅读 · 2020年3月4日

Self-training with Noisy Student improves ImageNet classification

Arxiv

15+阅读 · 2019年11月11日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

VIP会员