106页ppt附视频!面向大规模模型的分布式ML系统:动态分布式训练和可扩展的联邦学习

2022 年 8 月 9 日 专知


在现代AI中,大规模的深度学习模型已经成为许多重要互联网业务背后的核心技术,如搜索/ADs/推荐系统/CV/NLP。BERT、Vision Transformer、GPT-3和Switch Transformer模型将模型规模扩大到10亿甚至万亿个参数,表明几乎所有学习任务的精度都有了显著提高。使用云集群进行分布式训练是及时成功训练此类大规模模型的关键。开发更先进的分布式训练系统和算法既可以降低能量成本,也可以使我们训练更大的模型。此外,开发联邦学习这样的颠覆式学习范式也至关重要,它不仅可以保护用户的隐私,还可以分担处理前所未有的大数据和模型的负担。本次演讲将主要讨论用于大规模模型的分布式ML系统:用于云集群的动态分布式训练(https://DistML.ai)和用于边缘设备的规模联合学习(https://FedML.ai)

在第一部分中,我将介绍PipeTransformer,这是一种用于Transformer模型分布式训练(BERT和ViT)的自动化弹性pipeline 。在PipeTransformer中,我们设计了一种自适应的飞冻结算法,可以在训练过程中逐步识别并冻结某些层,以及一种弹性流水线系统,可以动态减少GPU资源来训练剩余的活动层,并在已释放的GPU资源上分叉更多的流水线,以扩大数据并行度的宽度。在第二部分中,我将讨论可扩展的联邦学习,用于在资源受限的边缘设备和FedML生态系统上训练大规模模型,旨在为各种AI应用(如CV NLP、GraphNN和IoT)在边缘进行无处不在的分布式训练。


Chaoyang He  是 FedML 联合创始人兼 CTO,博士毕业于南加州大学,他曾在华为、百度、腾讯任职,拥有丰富的互联网产品和业务研发经验。


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“DSLM” 就可以获取面向大规模模型的分布式ML系统:动态分布式训练和可扩展的联邦学习》专知下载链接

                       
专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取100000+AI(AI与军事、医药、公安等)主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,查看本文下载资料
登录查看更多
2

相关内容

专知会员服务
22+阅读 · 2021年9月27日
【WWW2021】大规模智能手机数据的异质联邦学习
专知会员服务
42+阅读 · 2021年3月8日
亚马逊最新《联邦学习》简明综述
专知
2+阅读 · 2022年2月6日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年11月18日
Arxiv
69+阅读 · 2022年6月13日
Arxiv
12+阅读 · 2022年4月12日
Arxiv
20+阅读 · 2021年9月21日
VIP会员
相关VIP内容
专知会员服务
22+阅读 · 2021年9月27日
【WWW2021】大规模智能手机数据的异质联邦学习
专知会员服务
42+阅读 · 2021年3月8日
相关基金
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员