直播丨BMMeetup第2期：大模型计算加速技术，2场特邀和7位青年学者技术报告联袂上演

2021 年 10 月 30 日 PaperWeekly

2018年以来预训练模型技术成功将深度学习框架应用于海量无标注数据，在大数据和大算力的支持下，「大模型」一定程度上具备了通用的语言能力，可以非常方便地通过微调技术适配到广泛下游任务，任务性能得到普遍显著提升，成为自然语言处理等领域的最新学习范式，前沿动态日新月异。

「Big Model Meetup」系列活动 是由智源研究院悟道团队、青源会、清华大学计算机科学与技术系博硕论坛、中国中文信息学会青年工作委员会共同组织，智源社区提供社区支持，PaperWeekly提供媒体支持。该系列活动旨在建设“大模型”研究和应用的“技术社区”，推动国内大模型技术的交流与发展，打造相关专家学者、爱好者深度的交流分享平台。

BMMeetup第二期以 大模型加速计算技术 为主题，于2021年 10月31日上午 在 线上召开 ，邀请了清华大学翟季冬老师和陈键飞老师为特邀讲者做引导发言介绍模型并行方法和量化方法的前沿动态，七位青年学者做技术报告。欢迎报名参加。

时间和直播

会议时间：2021年10月31日（周日）09:00-12:00
直播通道：https://live.bilibili.com/14884511（或点击阅读原文）

会议流程

议题详情

- 特邀报告 -

题目：基于国产超级计算机的百万亿参数超大预训练模型的训练

报告摘要： 大规模预训练模型已经在一系列重要应用中显示出其先进性。随着预训练模型规模的急剧增长，训练此类模型需要海量的计算和存储能力。为此，我们在国产新一代高性能计算机上训练了一个130万亿参数的超大规模预训练模型，模型参数与人脑中的突触数量相媲美。本报告中，介绍我们在加速这一模型中遇到的挑战以及相应的解决方法。

讲者： 翟季冬清华大学计算机系长聘副教授，智源青年科学家

讲者简介： 翟季冬，清华大学计算机系长聘副教授，博士生导师。现为清华大学计算机系高性能所副所长，ACM中国高性能计算专家委员会秘书长、北京智源青年科学家。主要研究方向包括高性能计算、性能评测和编译优化等。研究成果发表在相关领域顶级学术会议和期刊——SC、ICS、PPOPP、ASPLOS、MICRO、OSDI、ATC、IEEE TC、IEEE TPDS等。研究成果获ACM ICS 2021最佳学生论文奖、SC 2014 Best Paper Finalist、ICDCS 2020 Best Paper Honorable Mention奖。担任NPC 2018程序委员会主席、IEEE Cluster 2021领域主席、SC 2022领域副主席，SC、ICS、PPOPP等国际学术会议程序委员会委员。目前担任《IEEE Transactions on Computers》、《IEEE Transactions on Parallel and Distributed Systems》、《IEEE Transactions on Cloud Computing》等多个国际学术期刊编委。担任清华大学学生超算团队教练，指导的团队十一次获得世界冠军。获教育部科技进步一等奖、中国电子学会科学技术一等奖、中国计算机学会优秀博士学位论文奖、IEEE TPDS杰出编委奖、国家自然科学基金优秀青年科学基金（2017）、CCF-IEEE CS青年科学家奖。

题目：基于随机量化的高效神经网络训练理论及算法

报告摘要： 深度学习模型的规模与日俱增，训练神经网络的计算和内存需求快速增长。量化神经网络降低了神经网络计算中的数值精度，是加速神经网络训练、节省内存开销的有效手段。本次报告将介绍量化神经网络的理论研究现状，并介绍量化神经网络理论保证方面的一些最新工作。

讲者： 陈键飞清华大学计算机系助理教授

讲者简介： 陈键飞，清华大学计算机系助理教授。分别于2014、2019年在清华大学计算机系取得工学学士、博士学位。主要从事机器学习的高效算法研究，特别是量化神经网络、随机优化算法、概率推理、主题模型等。在NeurIPS、ICML等国际会议发表论文20余篇，研究成果获CCF优秀博士学位论文奖。

- 技术报告-

题目：FastMoE: 开源大规模分布式 MoE 训练框架

报告摘要： MoE 已经成为通往超大规模预训练模型的重要工具。报告将回顾 MoE 的发展历史和它在 Google 的千亿参数模型 GShard 和万亿参数模型 Switch-Transformer 中的应用。并介绍一个我们开发的大规模分布式 MoE 训练框架 FastMoE，着重介绍最新的 FastMoE v0.2 的一些新特性。包括（1）全新的负载均衡模块，支持 NoisyGate、GShard、Switch Transformer 等负载均衡策略；（2）同时支持英伟达 GPU 平台和神威国产超算平台；（3）在神威国产超算上1.75万亿模型训练实战。

讲者： 裘捷中清华大学计算机系博士生

讲者简介： 裘捷中，清华大学计算机科学与技术系六年级博士生，导师为唐杰教授，曾获得 2018 MSRA 微软学者提名奖，和 2020 世界人工智能大会 WAIC 青年优秀论文入围奖。他的研究兴趣主要包括图表示学习和大规模预训练。

题目：MoEfication：超大规模预训练语言模型稀疏化技术

报告摘要： 基于Transformer的预训练语言模型受益于大模型容量，在众多NLP任务上取得优异的性能，同时也需要巨大的计算成本。我们观察到在模型推理过程中，大多数输入只激活了模型中极小比例的神经元。因此，我们提出将一个大模型转化为其具有相同模型大小的MoE版本，加速大模型的推理。实验结果表明，MoE模型可以大大降低计算成本，在多个下游任务中，只激活模型的20%的FFN参数不会显著影响性能。

讲者： 张正彦清华大学计算机系博士生

讲者简介： 张正彦：清华大学计算机系2019级博士生，导师为刘知远副教授，研究方向为预训练语言模型及相关加速。相关工作发表在ACL、EMNLP、TKDE等会议及期刊上。

题目：ELUE高效模型评测与弹性BERT

报告摘要： 近期超大规模预训练模型将很多NLP任务的准确率提升到了前所未有的高度，相比于训练更大的模型去进一步刷新SOTA，越来越多的工作开始追求模型的多维度提升，比如保持一定准确率的同时提升模型推理效率，即追求Pareto SOTA。然而，这些高效推理模型大多仍然在以准确率为中心的评测基准（如GLUE）上评测，这造成了对比不全面、结果不开源、评测不标准、提交不便捷等问题。对此，我们发布了ELUE（ http://eluebenchmark.fastnlp.top/ ），一个针对高效NLP模型的标准化评测平台，它采用性能、参数量、FLOPs等指标对模型进行多维评测，采用ELUE Score对模型进行排序并形成Leaderboard。同时，我们还为高效NLP模型预训练了一个强大的基线模型——ElasticBERT，它既可以直接截取前几层来静态地使用，也可以作为动态早退模型的Backbone来动态地使用，实验表明ElasticBERT在两种使用场景下都取得了极具竞争力的结果。

讲者： 孙天祥复旦大学博士生

讲者简介： 孙天祥：复旦大学2019级博士生，导师为邱锡鹏教授和黄萱菁教授，主要关注自然语言处理中的多任务学习、知识融入、高效推理等方向，研究成果发表于AAAI, COLING, ACL, NAACL等会议，担任相关会议审稿人。

题目：CogView及其稀疏注意力加速

报告摘要： 非限定领域文本到图像的生成一直是一个开放的问题，这需要一个强大的生成模型和跨模态的理解的能力。我们提出了CogView，一个带有VQ-VAE标记器的40亿参数Transformer来解决这个问题。我们还演示了各种下游任务的微调策略，例如风格学习、超分辨率、文本图像相关性排序等，以及稳定预训练的方法，例如消除NaN损失。CogView在MS COCO数据集上实现了最先进的FID，优于以前基于GAN的模型和最近的类似工作DALL-E。由于生成高分辨率图像的序列长度远长于文本数据，本次演讲着重讲解CogView中的稀疏注意力机制。
讲者： 丁铭清华大学计算机系博士生

讲者简介： 丁铭，清华大学计算机系博士生，导师为唐杰教授。主要研究方向为认知智能与大规模预训练，曾在KDD、ACL、NeurIPS等会议上发表多篇一作文章。

题目：CPM-2中的大模型高效计算技术

报告摘要： 近年来预训练语言模型的规模不断变大，在性能提升的同时，也带来了计算效率问题。我们在训练CPM-2时构建了一套高效的计算框架，缓解大模型预训练、微调以及推理中的效率问题，训练出具有110亿稠密参数的CPM-2，以及其具有1980亿参数的MoE版本。本次演讲着重讲解训练CPM-2过程中涉及到的大模型高效计算技术，具体包括（1）稠密模型的3D并行加速（2）MoE模型的计算调度加速（3）大模型初始化及微调技巧。

讲者： 韩旭清华大学计算机系博士生

讲者简介： 韩旭：清华大学计算机系2017级博士生，导师为刘知远副教授，研究方向为自然语言处理、信息抽取、预训练语言模型，在自然语言处理领域国际会议ACL、EMNLP、COLING、NAACL上发表多篇论文。

题目：预训练语言模型的知识继承技术

报告摘要： 最近对大规模预训练语言模型 (PLM) 的探索（例如GPT-3）展示了具有大量参数的PLM的强大功能，然而，训练大规模PLM 需要大量的计算资源，这既耗时又昂贵。此外，现有的大规模PLM主要是从头开始训练，忽略了许多现有的PLM的可复用性。为此，我们探讨了如何基于已训练的PLM，训练更大的PLM的问题，我们将其命名为“知识继承”。具体而言，我们会从两个方向探讨该问题：（1）如何利用“反向蒸馏”的方法，将小模型的知识传授给大模型以及（2）如何通过小模型参数复用，提升大模型的训练速度。实验证明，两种方法均可以高效提升大模型的训练收敛速度，节省大量算力资源。

讲者： 秦禹嘉清华大学计算机系博士生

讲者简介： 秦禹嘉：清华大学计算机系2020级博士生，导师为刘知远副教授，研究方向为预训练语言模型、知识迁移等。相关工作发表在ICLR、ACL、TASLP等会议及期刊上。

题目：BMInf低资源大模型推理技术与工具包

报告摘要： 随着人们对大规模预训练语言模型的探索，以GPT-3为代表的一系列预训练语言模型以其强大的能力，促进了新一代人工智能应用的发展，在巨大参数量的加持下，人工智能可以完成语言的理解和推理也可以完成广告的创作。但是，在大模型巨大的参数量下，往往隐藏着巨大的算力需求。仅仅是硬件门槛的成本，就已经让很多应用开发者、研究人员望而却步。为了让更多人能在低成本的硬件上运行大模型，我们推出了BMInf工具包，让拥有110亿参数的CPM-2模型也能以不错的效率运行在GTX 1060这样普通的硬件设备上。

讲者： 曾国洋 BMInf工具包作者，OpenBMB联合发起人