224秒训练ImageNet!这次创纪录的是索尼大法

2018 年 11 月 15 日 新智元




  新智元报道  

来源:arXiv

作者:Mikami et. al 编译:肖琴

【新智元导读】深度神经网络训练速度越来越快已经不是新鲜事,但是,将ImageNet训练时间降低到200秒级别仍然让人震撼!近日,索尼发布新的方法,在ImageNet数据集上,使用多达2176个GPU,在224秒内成功训练了ResNet-50,刷新了纪录。


随着用于深度学习的数据集和深度神经网络模型的规模增大,训练模型所需的时间也在增加具有数据并行性的大规模分布式深度学习可以有效缩短训练时间。


然而,由于大型 mini-batch 训练的不稳定性和梯度同步的开销,将分布式深度学习扩展到大规模的GPU集群级别很有挑战性。


日本索尼公司的Hiroaki Mikami等人近日提出一种新的大规模分布式训练方法,通过控制batch size解决了大型mini-batch训练的不稳定性,用2D-Torus all-reduce解决了梯度同步的开销。


具体而言,2D-Torus all-reduce将GPU排列在一个逻辑2D网格中,并以不同的方向执行一系列操作。


这两种技术都是基于索尼的神经网络库NNL(Neural Network Libraries)实现的。最终,索尼的研究人员在224秒内(使用多达2176个GPU)成功训练了ImageNet/ResNet-50,并在ABCI 集群上没有明显的精度损失。


在ImageNet数据集上训练ResNet-50是用于测量深度学习分布式学习速度的一般行业基准,该研究刷新了这个基准的速度。


论文地址:

https://arxiv.org/pdf/1811.05233.pdf


224秒!刷新深度学习纪录


在大型GPU集群中,大规模分布式深度学习存在两个技术问题。第一个问题large mini-batch训练造成的收敛精度下降。第二个问题是GPU间梯度同步的通信开销。解决这两个问题需要一种新的分布式处理方法。


近年来,许多研究人员提出了多种方案来解决这两个问题(见原文参考文献)。这些工作利用ImageNet/ResNet-50训练来衡量训练效果。ImageNet/ResNet-50分别是最流行的数据集和最流行的DNN模型,用于对大规模分布式深度学习进行基准测试。


表1比较了近期一些工作的训练时间和top-1验证精度。其中,Facebook使用256个Tesla P100 GPU,在1小时内训练完ResNet-50,是加速了这一任务的著名研究。


表1:ImageNet/ResNet-50训练时间及top-1 -crop验证精度


之前的其他一些业界最好水平来自:

  • 日本Perferred Network公司Chainer团队,15分钟训练好ResNet-50 [5]

  • 腾讯机智团队,6.6分钟训练好ResNet-50 [6]


索尼团队的研究着重于解决大型mini-batch训练的不稳定性和梯度同步开销,他们使用2176 个Tesla V100 GPU,将训练时间缩短至224秒,验证精度为75.03%。


研究人员还尝试在不造成明显精度损失的情况下提高GPU scaling效率,使用1088个Tesla V100 GPU将GPU scaling效率提高到91.62%(表2)。


表2:ImageNet/ResNet-50训练的GPU scaling 效率


2大方法解决不稳定问题


大规模分布式训练有两个主要问题:大型mini-batch训练的不稳定性和同步通信的开销。


众所周知, large mini-batch训练是不稳定的,会产生泛化差距。


数据并行分布式训练需要在每个训练迭代之间增加一个步骤,以便在参与的GPU之间同步和平均梯度。这个步骤是使用一个all-reduce的集合操作来实现的。在一个大型GPU集群中,all-reduce集合操作的开销使得线性缩放变得非常具有挑战性。


针对这两个问题,我们使用Batch Size控制技术来解决不稳定问题,并开发了2D-Torus all-reducing方案,有效地跨GPU交换梯度。


Batch Size Control


以往的工作已经证明,在训练期间逐渐增加总的mini-batch size可以减少大型 mini-batch训练的不稳定性。直观地说,随着训练的损失情况变得“平坦”而增加批大小有助于避免局部最小值。


在这项工作中,我们采用 Batch Size Control来减少精度下降, batch size超过了32K。在训练期间采用了预定的batch-size来更改调度。


2 D-Torus All- reduce


有效的通信拓扑对于减少集体操作的通信开销至关重要。


为了解决这个问题,我们开发了2D-Torus all-reduce。2D-Torus拓扑结构如图1所示。集群中的GPU排列在2D网格中。在2D-torus拓扑中,all-reduce由三个步骤组成:reduce-scatter,all-reduce和all-gather。 


图1:2D-Torus拓扑由水平和垂直方向的多个环组成。


2D-Torus all-reduce的示例如图2所示。


图2:在2x2网格中,一个4-GPU集群的2D-Torus all-reduce步骤


评估:实验设置和训练设置


实验设置


软件:使用神经网络库(NNL)及其CUDA扩展,作为DNN训练框架。通信库使用NCCL和OpenMPI。2D-Torus all-reduce在NCCL上实现。以上软件打包在Singularity容器中,用于运行分布式DNN训练。


硬件:使用AI桥接云基础设施(ABCI)作为GPU集群。ABCI是日本先进工业科技研究所(AIST)运营的GPU集群。它包括1088个节点,每个节点有4个NVIDIA Tesla V100 GPU,2个Xeon Gold 6148处理器,376 GB内存。同一节点的GPU由NVLink互连,而节点由2个InfiniBand EDR互连。


数据集和模型:使用ImageNet数据集。使用ResNet-50作为DNN模型。模型中的所有层都由[9]中描述的值初始化。


训练设置:


使用LARS [9],系数为0.01,eps为1e-6更新权重。学习率(LR)通过以下公式计算:



用以下公式计算出总的mini-batch size和学习率。



我们还采用了[15]中介绍的混合精度训练。前向/后向计算和同步梯度的通信在半精度浮点(FP16)中进行。 


我们调整每个worker和总batch size,如表3所示,直到将总batch size增到最大。通过增加GPU的数量(Exp.1到Exp.4)来尝试提高最大总batch size。


表3:per-worker/total mini-batch size


但是,当使用超过2176个GPU时,训练效率变低了。因此,由于这个问题, Exp. 5 和Exp. 6仅使用2176个GPU。


表4:实验中使用的2D-Torus拓扑的网格尺寸。


结果:精度无损失,训练时间只需224秒


我们在224秒内完成了ResNet-50的训练,没有明显的精度损失,如表5所示。


表5:Top-1 1-crop 验证精度和训练时间


训练误差曲线与参考曲线非常相似(图3)。虽然最大的batch size可以增加到119K也不会造成明显的精度损失,但进一步增大会使精度降低约0.5%(表5中的实验6)。


图3:训练误差曲线


我们描述了与单个节点(4个GPU)相比的训练速度和GPU缩放效率。


表6显示了当每个worker的批大小设置为32时的GPU数量和训练吞吐量。虽然当使用超过2176个GPU时,GPU scaling效率降低到70%,但当使用1088 GPU时,scaling效率超过了90%。


在之前的研究[6]中,当使用1024个Tesla P40,每个worker的批大小设置为32时,GPU scaling效率为87.9%。因此,与之前的研究相比,我们的通信方案通过更快、更多的GPU实现了更高的GPU scaling效率。


表6:2D-Torus all-reduce的训练吞吐量和scaling效率


结论


大规模分布式深度学习是减少DNN训练时间的有效方法。我们采用了多种技术来减少精度下降,同时在使用一个庞大的GPU集群进行训练的同时保持了较高的GPU scaling效率。


这些技术是用神经网络库(NNL)实现的,我们使用了2176个 Tesla V100 GPU,训练时间224秒,验证精度75.03%。我们还通过1088个Tesla V100 GPU达到了90%以上的GPU扩展效率。


论文地址:

https://arxiv.org/pdf/1811.05233.pdf



【加入社群】


新智元 AI 技术 + 产业社群招募中,欢迎对 AI 技术 + 产业落地感兴趣的同学,加小助手微信号:aiera2015_3  入群;通过审核后我们将邀请进群,加入社群后务必修改群备注(姓名 - 公司 - 职位;专业群审核较严,敬请谅解)。


登录查看更多
1

相关内容

ImageNet项目是一个用于视觉对象识别软件研究的大型可视化数据库。超过1400万的图像URL被ImageNet手动注释,以指示图片中的对象;在至少一百万个图像中,还提供了边界框。ImageNet包含2万多个类别; [2]一个典型的类别,如“气球”或“草莓”,包含数百个图像。第三方图像URL的注释数据库可以直接从ImageNet免费获得;但是,实际的图像不属于ImageNet。自2010年以来,ImageNet项目每年举办一次软件比赛,即ImageNet大规模视觉识别挑战赛(ILSVRC),软件程序竞相正确分类检测物体和场景。 ImageNet挑战使用了一个“修剪”的1000个非重叠类的列表。2012年在解决ImageNet挑战方面取得了巨大的突破,被广泛认为是2010年的深度学习革命的开始。
[ICML-Google]先宽后窄:对深度薄网络的有效训练
专知会员服务
34+阅读 · 2020年7月5日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
最新《知识蒸馏》2020综述论文,20页pdf,悉尼大学
专知会员服务
157+阅读 · 2020年6月14日
【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型
专知会员服务
25+阅读 · 2020年5月7日
专知会员服务
19+阅读 · 2020年3月29日
【Google】利用AUTOML实现加速感知神经网络设计
专知会员服务
29+阅读 · 2020年3月5日
21秒看尽ImageNet屠榜模型,60+模型架构同台献艺
机器之心
5+阅读 · 2019年8月8日
已删除
将门创投
6+阅读 · 2019年6月10日
Google:数据并行对神经网络训练用时的影响
Arxiv
7+阅读 · 2020年3月1日
Optimization for deep learning: theory and algorithms
Arxiv
105+阅读 · 2019年12月19日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Arxiv
8+阅读 · 2018年11月21日
Arxiv
10+阅读 · 2018年2月4日
Arxiv
5+阅读 · 2016年12月29日
VIP会员
相关论文
Arxiv
7+阅读 · 2020年3月1日
Optimization for deep learning: theory and algorithms
Arxiv
105+阅读 · 2019年12月19日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Arxiv
8+阅读 · 2018年11月21日
Arxiv
10+阅读 · 2018年2月4日
Arxiv
5+阅读 · 2016年12月29日
Top
微信扫码咨询专知VIP会员