第37届国际人工智能大会(AAAI2023)2023年2月7日-2月14日在美国华盛顿召开。AAAI是CCF推荐的A类国际学术会议,在人工智能领域享有很高的学术声誉。这次会议共收到来自8777篇投稿,录用1721篇,录用率约19.6%。来自伯克利、NUS等学者带来了《大规模深度学习优化技术》教程,非常值得关注!

大型transformer模型在广泛的人工智能应用中表现出了有希望的性能。然而,由于其良好的性能,最近出现了大量超大型模型。由于大量的通信开销和它们执行的计算数量,这些模型具有过高的训练成本。因此,学术界和工业界都在更大的集群上扩展深度学习训练。然而,泛化性能的下降、不可忽视的通信开销和模型大小的增加阻碍了深度学习研究人员和工程师探索大规模人工智能模型。**在本教程中,我们的目标是提供一个关于模型精度和模型效率的大规模深度学习优化的清晰草图。**本文研究了最常用于优化的算法:回顾了梯度下降优化的关键思想,介绍了大批量训练优化,详细阐述了在大批量训练中出现的泛化差距这一有争议的主题,提出了二阶优化,最后,回顾了解决通信开销和减少内存占用的最先进策略。

成为VIP会员查看完整内容
59

相关内容

【UAI2021教程】贝叶斯最优学习,65页ppt
专知会员服务
64+阅读 · 2021年8月7日
【IJCAI】大规模可扩展深度学习,82页ppt
专知会员服务
27+阅读 · 2021年1月10日
【PKDD2020教程】机器学习不确定性,附88页ppt与视频
专知会员服务
94+阅读 · 2020年10月18日
【DeepMind】强化学习教程,83页ppt
专知会员服务
153+阅读 · 2020年8月7日
【AAAI2023】图序注意力网络
专知
5+阅读 · 2022年11月24日
太强了! VLDB'22最佳论文:GNN高效训练
图与推荐
0+阅读 · 2022年10月13日
谷歌大脑《自动强化学习》教程,81页ppt!
专知
0+阅读 · 2022年8月15日
IJCAI2022《对抗序列决策》教程,164页ppt
专知
4+阅读 · 2022年7月27日
246 页《统计机器学习与凸优化》教程 PPT 下载
新智元
24+阅读 · 2018年9月21日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
0+阅读 · 2023年3月31日
Arxiv
30+阅读 · 2021年7月7日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
23+阅读 · 2021年3月4日
已删除
Arxiv
32+阅读 · 2020年3月23日
Arxiv
22+阅读 · 2018年8月30日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
0+阅读 · 2023年3月31日
Arxiv
30+阅读 · 2021年7月7日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
23+阅读 · 2021年3月4日
已删除
Arxiv
32+阅读 · 2020年3月23日
Arxiv
22+阅读 · 2018年8月30日
微信扫码咨询专知VIP会员