第37届国际人工智能大会(AAAI2023)于2023年2月7日-2月14日在美国华盛顿召开。AAAI是CCF推荐的A类国际学术会议,在人工智能领域享有很高的学术声誉。这次会议共收到来自8777篇投稿,录用1721篇,录用率约19.6%。来自伯克利、NUS等学者带来了《大规模深度学习优化技术》教程,非常值得关注!
大型transformer模型在广泛的人工智能应用中表现出了有希望的性能。然而,由于其良好的性能,最近出现了大量超大型模型。由于大量的通信开销和它们执行的计算数量,这些模型具有过高的训练成本。因此,学术界和工业界都在更大的集群上扩展深度学习训练。然而,泛化性能的下降、不可忽视的通信开销和模型大小的增加阻碍了深度学习研究人员和工程师探索大规模人工智能模型。**在本教程中,我们的目标是提供一个关于模型精度和模型效率的大规模深度学习优化的清晰草图。**本文研究了最常用于优化的算法:回顾了梯度下降优化的关键思想,介绍了大批量训练优化,详细阐述了在大批量训练中出现的泛化差距这一有争议的主题,提出了二阶优化,最后,回顾了解决通信开销和减少内存占用的最先进策略。