题目: Large Batch Optimization for Deep Learning: Training BERT in 76 minutes

摘要: 在海量数据集上训练大型深层神经网络在计算上具有很大的挑战性。最近,人们对使用大批量随机优化方法来解决这个问题的兴趣激增。在这方面最突出的算法是LARS,它通过采用分层自适应学习率在几分钟内在ImageNet上训练ResNet。然而,LARS对于像BERT这样的注意模型表现不佳,这表明它的性能增益在任务之间并不一致。本文首先研究了一种原则性的分层自适应策略,以加速大批量、小批量的深层神经网络训练。利用该策略,我们发展了一种新的分层自适应大批量优化技术LAMB,并给出了LAMB和LARS的收敛性分析,给出了一般非凸情形下LAMB和LARS的收敛性。实验结果表明,LAMB在BERT和ResNet-50训练等任务中具有很好的性能,且超参数调整很少。特别是,对于BERT训练,我们的优化器允许使用非常大的批量大小32868,而不会降低性能。通过将批处理大小增加到TPUv3 Pod的内存限制,BERT训练时间可以从3天减少到76分钟。

作者简介: Sashank J. Reddi,他是卡内基梅隆大学机器学习系的博士生。他的主要兴趣是机器学习、优化、统计学和计算机科学理论。个人主页:http://www.cs.cmu.edu/~sjakkamr/index.html

Sanjiv Kumar,博士,谷歌研究科学家。他的研究方向未大型机器学习,人工智能,健康人工智能,计算机视觉,机器人。个人主页:[http://www.sanjivk.com/}(http://www.sanjivk.com/)

成为VIP会员查看完整内容
3

相关内容

“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。” ——中文维基百科

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
[ICML-Google]先宽后窄:对深度薄网络的有效训练
专知会员服务
34+阅读 · 2020年7月5日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
74+阅读 · 2020年4月24日
【阿里巴巴-CVPR2020】频域学习,Learning in the Frequency Domain
BERT进展2019四篇必读论文
专知会员服务
67+阅读 · 2020年1月2日
开学综合症有救了!17篇最新AI论文不容错过
PaperWeekly
6+阅读 · 2019年3月1日
3分钟看懂史上最强NLP模型BERT
新智元
23+阅读 · 2019年2月27日
Google:数据并行对神经网络训练用时的影响
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
11+阅读 · 2018年4月27日
Arxiv
4+阅读 · 2019年12月2日
Arxiv
11+阅读 · 2019年6月19日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
18+阅读 · 2019年1月16日
Meta-Transfer Learning for Few-Shot Learning
Arxiv
8+阅读 · 2018年12月6日
The Matrix Calculus You Need For Deep Learning
Arxiv
12+阅读 · 2018年7月2日
VIP会员
相关论文
Arxiv
4+阅读 · 2019年12月2日
Arxiv
11+阅读 · 2019年6月19日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
18+阅读 · 2019年1月16日
Meta-Transfer Learning for Few-Shot Learning
Arxiv
8+阅读 · 2018年12月6日
The Matrix Calculus You Need For Deep Learning
Arxiv
12+阅读 · 2018年7月2日
微信扫码咨询专知VIP会员