阿里巴巴达摩院 M6 团队，带你领略大模型发展之路

2022 年 7 月 21 日 机器之心

机器之心知识站与国际顶尖实验室及研究团队合作，将陆续推出系统展现实验室成果的系列技术直播，作为深入国际顶尖团队及其前沿工作的又一个入口。赶紧点击「阅读原文」关注起来吧！

7月26日，最新一期「机器之心走近全球顶尖实验室」邀请到阿里巴巴达摩院M6团队带来分享。

阿里巴巴达摩院M6团队致力于认知智能方向，研发了AliGraph、M6、洛犀等较为有影响力的人工智能开源平台和系统，发表顶级会议、期刊文章超过100篇，美国和中国专利超过30项。曾获2019年世界人工智能大会最高奖卓越人工智能引领者（Super AI Leader，简称SAIL奖），2020年国家科学技术进步奖二等奖和杭州市领军型创新团队，2021年电子学会科学技术进步奖一等奖，2022年福布斯中国科技女性50等荣誉。

7月26日，来自阿里巴巴达摩院M6团队的4位嘉宾将带来线上分享，详情如下：

7月26日 19:00-21:00

主题一：大模型发展之路

分享嘉宾： 杨红霞，阿里巴巴达摩院人工智能科学家。

分享背景：近年来，随着预训练技术在深度学习领域的飞速发展，超大规模模型逐渐走进人们的视野，成为人工智能领域的焦点。继OpenAI推出1750亿参数的GPT-3模型之后，我们于自2021年初提出百亿参数的超大规模中文多模态预训练模型M6 （Multi-Modality to Multi-Modality Multitask Mega-transformer），在多项多模态和自然语言下游任务表现出突出的能力。作为业界最大的中文多模态预训练模型M6，我们持续推出多个版本，参数逐步从百亿规模扩展到十万亿规模，在大模型、绿色/低碳AI、AI商业化、服务化等诸多方面取得突破性进展，比如对比相同参数规模1750亿的GPT-3模型，我们只需要其1%的算力，绿色/低碳是大模型普及的必要条件。M6服务内部近50个部门并在阿里云对外200+产品中投入使用，被MIT Tech Review评为2021年度中国AI突破技术并重点推荐。

今年，在探索算力极限的同时，我们也积极展开了针对通用模型这一预训练技术“皇冠”的探索，提出业界首个通用的统一大模型（模态、任务和架构）M6-OFA，极大的降低模型在预训练、适配下游任务、推理过程中的难度，更加便捷的从在线模型构建、在线模型部署、应用发布的全流程预训练服务，能够支持成百上千个应用的开发与部署。同时随着移动芯片计算能力的指数级增长，智能移动设备在内容展示终端这一传统角色之外，逐渐承担起更多任务。如何充分利用好移动算力，我们也探索了一条大模型由云计算走向端计算，端云协同建模M6-Edge。

分享摘要： 本分享将介绍团队在超大规模多模态预训练模型的建设之路，包括低碳训练技术M6，统一范式学习M6-O FA和大模型端上建模M6-Edge，以及产业落地应用和规划。

主题二：超大规模预训练及其应用

分享嘉宾： 林俊旸，阿里巴巴达摩院智能计算实验室算法专家。

分享背景：近年来在人工智能领域，随着GPT-3等模型取得巨大成功，超大规模预训练技术逐渐发展成为当前学界和工业界研究与应用的热点。超大规模预训练模型通过大规模无监督数据的预训练将海量知识储存在模型参数中，本身具备极强的理解和生成能力以外，同时具有前所未有的少样本学习甚至零样本学习的能力，而近期提出的提示学习等技术也充分发挥出超大模型的潜力，实现快速和低成本的任务迁移和领域迁移。基于此，我们率先探索超大规模多模态预训练，研究训练大模型相关的基础技术，包括算法和工程的协作实现稳定高效的训练等。同时，我们还针对大模型落地对内提出服务化平台，通过平台组件等方式支持集团生态内各类型业务，推动前沿技术走向落地应用。

分享摘要： 本分享将介绍团队2021年系列工作——超大规模多模态预训练模型M6，将介绍模型实现、训练细节、工程优化等内容，并结合团队最新发表在ICML的工作M6-OFA详解M6的问题与不足等。本分享还将进一步介绍M6在平台化支持和落地应用的相关经验和总结。

主题三：统一多模态多任务模型框架OFA

分享嘉宾： 周畅，阿里巴巴达摩院高级算法专家。

分享背景： 如何“使用少数几种表示方法，来统一建模数据和任务”被认为是实现通用AI的一个关键环节。最近，统一模态、任务表示、模型结构的工作开始得到学术界和工业界的广泛关注。我们将主要介绍我们被ICML 22’接收的统一多模态多任务算法模型OFA。OFA提出了通用模型现阶段最好要符合的三个特点，即模态无关、任务无关、任务多样性。在图文领域，OFA将visual grounding、VQA、image caption、image classification、text2image generation、language modeling等经典任务通过统一的seq2seq框架进行表示，在任务间共享不同模态的输入输出，并且让Finetune和预训练保持一致，不新增额外的参数结构。我们希望以这种方式，围绕模型Scaling、任务Scaling、数据Scaling，让模型逐步获得更强的通用能力。和其他工作相比，例如CoCa和Flamingo，OFA使用了全公开的、更小量级的图文对数据和模型参数量，获得了多项多模态下游任务的SOTA表现，包括文本到图像生成。同时面对unseen domain和unseen task，OFA也展现出了不错的处理能力。目前我们准备了从tiny到huge的5个不同的模型规模相关代码、模型ckpt均已发布https://github.com/OFA-Sys/OFA。我们近期也新训练了一个中文版OFA，也将发布在这个repo中。相关能力以交互式demo的形式放在https://huggingface.co/OFA-Sys上以供大家把玩。

分享摘要： 我们将介绍以多模态多任务的方式构建通用模型的研究思路，并重点介绍我们在此路线上被ICML 22’接收的一个工作OFA。OFA使用统一的模型结构、任务&模态表示进行统一预训练，并以较小规模的训练数据和参数量，在取得多项任务的SOTA的同时，也具备不错的unseendomain & task的处理能力。

主题四：大模型的端上应用实践

分享嘉宾： 陆承镪，阿里巴巴达摩院智能计算实验室算法工程师。

分享背景： 随着大规模预训练模型在各个领域取得惊人的成就，将其应用于端上的实践也逐渐开始。相比传统云上模型系统，在移动端设备上部署模型，可以带来减少通信延迟，降低云侧计算压力，保护用户隐私等诸多好处。然而，移动端设备的硬件性能如容量、内存、计算速度等都远逊于云端服务器，使得部署模型挑战很大。近年来，关于大模型怎么可以在端（低资源环境）上部署运行，也成了学术界和工业界一个比较热点的问题。

我们团队在这方面做了大量工作，首先我们将介绍我们在大模型轻量化上的一些研究工作，包括关于预训练模型压缩蒸馏和多任务的端云协同框架。然后，我们将介绍基于真实场景的模型轻量化实践。最后，我们将介绍已经开源的洛犀端云协同平台。

分享摘要： 我们将介绍我们在“大模型在低资源环境部署推理”的相关思考以及工作实践，包括大模型的轻量化压缩，大小模型的协同运作，此外我们还将分享近期对外公布的相关工作以及开源的洛犀算法平台。

加群看直播

直播间 ：关注机器之心机动组视频号，北京时间7月26日19:00开播。

交流群： 本次直播设有QA环节，欢迎加入本次直播交流群探讨交流。

如群已超出人数限制，请添加机器之心小助手：syncedai2、syncedai3、syncedai4 或 syncedai5，备注「M6」即可加入。

如果你也有最新工作希望分享或提交你感兴趣的内容方向，随时告诉我们吧： https://jiqizhixin.mikecrm.com/fFruVd3

机器之心 · 机动组

机动组是机器之心发起的人工智能技术社区，聚焦于学术研究与技术实践主题内容，为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动，欢迎所有 AI 领域技术从业者加入。

登录查看更多

相关内容

阿里巴巴达摩院

关注 6

阿里巴巴达摩院（The Academy for Discovery, Adventure, Momentum and Outlook，Alibaba DAMO Academy）是一家致力于探索科技未知，以人类愿景为驱动力的研究院，是阿里在全球多点设立的科研机构，立足基础科学、颠覆性技术和应用技术的研究。

2022人工智能十大关键词: 从大模型到可信落地

专知会员服务

161+阅读 · 2022年8月18日

200页pdf100+位作者19家单位！北京智源清华唐杰等发布《大模型路线图》论文，详述大模型的资源、模型、关键技术与应用

专知会员服务

129+阅读 · 2022年3月31日

200页pdf100+位作者19家单位！北京智源清华唐杰等发布《大模型路线图》

专知会员服务

92+阅读 · 2022年3月30日

创新工场首席科学家周明博士：认知智能的进展和思考

专知会员服务

54+阅读 · 2022年3月24日