干货｜GPU加速深度学习

2017 年 7 月 20 日 全球人工智能

来源：云栖社区作者：撷峰

摘要：本文介绍了GPU用于深度学习（尤其是深度学习训练）加速的背景，使用了主流的开源深度学习框架在NVIDIA GPU上实测加速性能，并给出了一些使用建议。

1. 背景
　　一年半以前，AlphaGo完胜李世乭的围棋赛让深度学习（Deep Learning）这个名词家喻户晓，再度掀起人工智能的新一波热潮。其实深度学习背后的神经网络基础理论早在上世纪50年代就已提出，经过几起几落的发展，到了21世纪初，多层神经网络算法也日趋成熟。深度学习理论早在十多年以前就有重要突破，为何直到近年才出现爆发。这不得不提到2012年的一场竞赛。
　　2012年，Geoffrey E. Hinton（与Yann LeCun 和Yoshua Bengio并称为深度学习三驾马车）的弟子Alex Krizhevsky在ILSVRC-2012的图像分类比赛中使用2块Nvidia GTX 580 GPU训练的多层神经网络（后来被称为AlexNet）以15.3%的top-5测试错误率摘得冠军，而使用传统方法的第二名的成绩是26.2%，整整提高了10多个百分点。这也成为了深度学习发展史上的里程碑事件，从此深度神经网络一炮走红，此后ILSVRC的优胜者一直被深度神经网络霸占。
　　可以说深度学习爆发有两个主要原因，一个是像ImageNet这样的大规模数据集的出现，而另一个重要原因就是计算能力的提高，而这主要得益于GPU用于深度学习的加速，尤其是深度学习训练的加速。
　　Alex当时使用的数据集包含120万张高清图片，受限于单块GTX 580 GPU 3GB的内存，他们使用了2块GPU来训练他们包含6000万参数和65万神经节点的网络，当时花了5~6天的时间。可以想象，没有GPU的加速，要完成如此大规模的数据集的多层神经网络训练要花费多长的时间。
　　随着深度网络层数的增加，训练集动辄以T为单位计算，现在深度学习的训练已经离不开GPU了，而GPU的计算能力也在不断的提升，以满足深度学习训练的计算需求。
2. 实测
　　下面是我们使用主流的几个开源深度学习框架在NVIDIA GPU上做的一些深度学习的测试。其中P100和P4的数据均来自于阿里云GPU云服务器新GPU实例的内部测试数据，仅供参考，实际数据请以线上正式环境为准。
2.1 NVCaffe
　　NVCaffe是NVIDIA基于BVLC-Caffe针对NVIDIA GPU尤其是多GPU加速优化的开源深度学习框架。
　　我们使用NVCaffe对AlexNet、GoogLeNet、ResNet50三种经典卷积神经网络在单机8卡P100服务器上做了训练测试。测试使用ImageNet ILSVRC2012数据集，，其中训练图片1281167张，验证测试图片 5万张，LMDB格式train set 240GB ，val set 9.4GB，数据单位是Images/Second（每秒处理的图像张数），OOM表示Batch Size太大导致GPU显存不够。
　　下面是给出物理机上GoogLeNet的数据：

　　从测试数据我们看到，相同GPU数量，随着Batch Size的增大，训练性能会有明显的提升，相同Batch Size，在GPU Memory基本用满的情况下，随着GPU数量的增加，训练性能也会有明显的提升，GPU加速可以接近线性加速。高密GPU服务器可以接近线性加速，对于大数据集的训练提速非常明显。
　　我们还对比了不同卷积神经网络模型的多GPU加速比，结果如下：

　　可以看到，不同神经网络模型的GPU加速也是有差别的，AlexNet的多GPU加速效果就不如GoogLeNet和ResNet50好。
2.2 MXNet
　　相比Caffe，MXNet是一个更加简洁灵活效率高的开源深度学习框架，它配置简单，依赖少，尤其是具有很好的多GPU加速扩展性。
　　我们使用Benchmark模式测试ImageNet训练，使用网络Inception-v3（GoogLeNet的升级版）在单机8卡P100服务器上进行测试，物理机加速比如下：

　　可以看到，MXNet也具有非常好的GPU线性加速扩展能力。
　　下面是P100虚拟机与AWS P2.16xlarge实例的对比，单位是samples/sec，越大性能越好：

2.3 TensorFlow
　　TensorFlow得益于背后Google的支持，是活跃度最高的开源深度学习框架。
　　我们使用CIFAR-10数据集在P100上做了多GPU加速训练测试，物理机加速比如下：

　　可以看到，TensorFlow的单机多卡加速能力是非常差的，尤其是超过2卡以后，跟NVCaffe和MXNet有较大的差距。
　　此外，我们使用AlexNet Benchmark模式对不同架构单GPU 做了Forward和Forward-backward性能测试作为比较参考，包括新的Pascal架构的Tesla P100、P4和老的Kepler架构的K80（其中K80数据来源于AWS P2.16xlarge实例，对比的P100也是虚拟机的数据），数据单位sec/ batch，值越小性能越好：

　　通过K80与P100、P4的对比，可以看到Pascal架构的GPU(P100、P4)比Kepler架构的GPU(K80)有非常明显的性能提升。其中特别一提的是P4因为较低的TDP（75W），具备非常好的性能功耗比，非常适合作为推理的加速。
３. 总结
　　1) 为了缩短训练时间，尽可能选择新架构的GPU，比如Pascal架构的P100，并利用GPU适合并行计算的特点使用多GPU来加速训练。但是注意，并不是所有的深度学习框架都有好的单机多卡加速，比如开源的TensorFlow就不好，我们建议用户使用比如MXNet或者NVCaffe这样的学习框架用于单机多卡加速。
　　2) Batch Size的增大对于训练的性能有明显的提升，因此应尽可能选择GPU Memory大的GPU，比如P100的GPU Memory可以达到16GB。
　　3) 不同深度神经网络的实现差异，会导致多GPU加速比的差异，在设计或者优化神经网络模型的时候，需要注意如何更好的利用GPU的并行计算能力，比如减小GPU之间的通信开销以提高GPU并行计算的效率。