过去的十年见证了深度学习(DL)应用数据量的巨大增长。因此,深度神经网络(DNNs)的训练时间过长已经成为机器学习(ML)开发者和研究者的瓶颈。例如,在8个P100 gpu上完成90-epoch ImageNet/ResNet-50的训练需要29个小时。在16个v3 TPU芯片上完成BERT预训练需要81小时。本文主要研究的是快速准确的ML训练。尽管生产团队希望充分利用超级计算机来加速训练过程,但传统的优化器无法扩展到数千个处理器。在本论文中,我们设计了一系列基本的优化算法来提高DL系统的并行度。我们的算法为谷歌、英特尔、腾讯、英伟达等最先进的分布式系统提供支持。本文的重点是弥合高性能计算(HPC)和ML之间的差距。

在2017年HPC和ML之间有很大的差距。一方面,我们拥有强大的超级计算机,每秒可以执行2x10^17个浮点运算。另一方面,我们甚至不能充分利用1%的计算能力来训练一个最先进的机器学习模型。原因是超级计算机需要极高的并行度才能达到其峰值性能。然而,高并行性导致ML优化器的收敛性很差。为了解决这个问题,我和我的合著者提出了LARS优化器、LAMB优化器和CA-SVM框架。这些新方法使ML训练扩展到数千个处理器而不会失去准确性。在过去的三年里,我们观察到ResNet-50的训练时间从29小时下降到67.1秒。事实上,自2017年12月以来,所有最先进的ImageNet训练速度记录都是由LARS创造的。LARS在MLPerf v0.6中成为行业指标。此外,即使没有超级计算机,我们的方法也比现有的求解器要快。如果我们固定训练预算(例如1个GPU 1小时),我们的优化器可以达到一个更高的精度比最先进的基线。

成为VIP会员查看完整内容
53

相关内容

“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。” ——中文维基百科

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
43+阅读 · 2020年9月25日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
84+阅读 · 2020年9月6日
专知会员服务
200+阅读 · 2020年9月1日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
128+阅读 · 2020年8月27日
【ICML2020】机器学习无参数在线优化,294页ppt
专知会员服务
54+阅读 · 2020年8月1日
最新《深度半监督学习》综述论文,43页pdf
专知会员服务
153+阅读 · 2020年6月12日
Deeplearning4j 快速入门
人工智能头条
14+阅读 · 2018年12月24日
当前训练神经网络最快的方式:AdamW优化算法+超级收敛
中国人工智能学会
6+阅读 · 2018年7月4日
算法优化|梯度下降和随机梯度下降 — 从0开始
全球人工智能
8+阅读 · 2017年12月25日
2017年深度学习优化算法最新综述
计算机视觉战队
6+阅读 · 2017年12月18日
EfficientDet: Scalable and Efficient Object Detection
Arxiv
6+阅读 · 2019年11月20日
Zero-Shot Object Detection
Arxiv
9+阅读 · 2018年7月27日
VIP会员
相关VIP内容
专知会员服务
43+阅读 · 2020年9月25日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
84+阅读 · 2020年9月6日
专知会员服务
200+阅读 · 2020年9月1日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
128+阅读 · 2020年8月27日
【ICML2020】机器学习无参数在线优化,294页ppt
专知会员服务
54+阅读 · 2020年8月1日
最新《深度半监督学习》综述论文,43页pdf
专知会员服务
153+阅读 · 2020年6月12日
相关资讯
微信扫码咨询专知VIP会员