通用（大）模型的最后一公里：ETA计算中

2022 年 1 月 25 日 机器之心

自 2018 年谷歌推出 BERT（3.4 亿参数）以来，语言模型开始朝着「大」演进。国内外先后出现了参数量高达千亿甚至万亿的语言模型，比如谷歌的 T5（110 亿）、OpenAI 的 GPT-3（1,750 亿）、华为联合鹏城实验室的盘古（Pangu）（2000 亿），智源研究院的 WuDao2.0（1.75 万亿）……

基于注意力机制的 Transformer 架构已经席卷了 CV 领域，并成为研究和实践中日益流行的选择。此前，Transformer 被广泛用于 NLP 领域。有研究者仔细研究了自然语言处理中 Transformer 最优扩展，主要结论是大型模型不仅性能更好，而且更有效地使用了大量计算预算。

2022 年了，语言模型的参数的规模量卷到如此程度，它们究竟能做些什么？大模型又跨界到什么程度了呢？

在 2021 年 6 月的一篇论文中，原 ViT 团队成员、谷歌大脑的几位研究者集中研究了预训练 ViT 模型用于图像分类任务的迁移性能的扩展规则（scaling law）。研究者尝试对从 500 万到 20 亿个参数不等的模型进行了实验，从 3000 万到 30 亿个训练图像不等的数据集、低于 1 个 TPUv3 核每天（core-day）到超过 10000 个核每天进行计算预算。基于实验结果，文献描述了 ViT 模型的性能计算边界。

随着 BERT、DALL-E、GPT-3 等大规模预训练模型的出现，AI 社区正在经历一场范式转变。从计算机视觉到自然语言处理，从机器人学到推理、搜索，这些大模型已经无处不在，而且还在继续「野蛮生长」。

这种野蛮生长是大模型的有效性带来的必然结果。在 BERT 出现（2018 年）之前，语言模型的自监督学习本质上只是 NLP 的一个子领域，与其他 NLP 子领域并行发展。但在 BERT 横扫 11 项 NLP 任务之后，这种格局被打破了。2019 年之后，使用自监督学习构造语言模型俨然已经成为一种基础操作，因为使用 BERT 已经成为一种惯例。这标志着大模型时代的开始。

这一时代的重要标志是「同质化」。如今，NLP 领域几乎所有的 SOTA 模型都是少数几个基于 Transformer 的大模型进化而来。而且，这种趋势正在向图像、语音、蛋白质序列预测、强化学习等多个领域蔓延。整个 AI 社区似乎出现了一种大一统的趋势。

毋庸置疑，这种同质化是有好处的，大模型的任何一点改进就可以迅速覆盖整个社区。但同时，它也带来了一些隐患，因为大模型的缺陷也会被所有下游模型所继承。

大模型的强大能力来自巨大的参数空间的结合，这也导致它们的可解释性非常差，其能力和缺陷都存在不确定性。在这种情况下，盲目将整个研究范式向大模型转变真的可取吗？

此外，我们目前依然尚不清楚这些发现在多大程度上能够迁移到视觉领域。例如，视觉中最成功的预训练方案是有监督的，而 NLP 领域是无监督预训练。

2021 年 8 月，斯坦福大学的 Percy Liang、Rishi Bommasani（Percy Liang 的学生）、李飞飞等 100 多位研究者联名发布了一篇系统探讨此问题的论文。在论文中，他们给这种大模型取了一个名字——「基础模型（foundation model）」，并系统探讨了基础模型的机遇与风险。「基础」代表至关重要，但并不完备。

在即将到来的一年里，在大规模预训练模型的跨界之路上，又将出现哪些变数？

- 「基础模型（foundation model）」是否将成为下一个 AI 范式？
- 「基础模型（foundation model）」的出现是否意味着距离实现「通用模型」只剩最后一公里的路程的？
- 针对细分应用领域，例如生化领域等，搞「专用模型」是否还有未来价值？「专用模型」又有哪些不一样的玩法？

2022 年 1 月 25 日晚 7 点，在机器之心年度特别策划「驱动未来的 AI 技术 —— 2021-2022 年度 AI 技术趋势洞察」的「模型专场」，ICCV 2021 马尔奖（最佳论文奖）Swin Transformer 作者、微软亚洲研究院（MSRA）视觉计算组的主任研究员胡瀚博士，循环智能联合创始人 & 清华大学交叉信息院助理教授杨植麟，循环智能资深算法总监陈虞君，Autodesk AI Lab 研究科学家、Daily Arxiv Radiostation 主持人楚航四位嘉宾将做客机器之心「2020-2021 年度 AI 技术趋势洞察」直播间，分别通过技术报告 「面向统一的 AI 模型架构和学习方法」、「对大规模预训练模型效率与泛化的新思考」 ，并共同就 「通用（大）模型的最后一公里」 等话题进行探讨。

嘉宾简介

技术报告：面向统一的 AI 模型架构和学习方法

胡瀚，微软亚洲研究院（MSRA）视觉计算组的主任研究员

胡瀚博士目前是微软亚洲研究院（MSRA）视觉计算组的主任研究员和研究经理。本科和博士毕业于清华大学自动化系，荣获中国人工智能学会优秀博士论文奖。曾就职于百度研究院深度学习实验室（ IDL）。担任 CVPR2021/2022 的领域主席。目前主要研究兴趣包括视觉模型架构、视觉自监督表征学习和视觉语言联合学习等，是 Swin Transformer 系列、关系网络系列，可变形卷积系列的作者，其中 Swin Transformer 获得 ICCV2021 马尔奖（最佳论文）。

技术报告：大规模预训练模型的新思考：效率和泛化

杨植麟，循环智能联合创始人、清华大学交叉信息院助理教授

杨植麟博士是循环智能（Recurrent AI）联合创始人，智源青年科学家。其联合创办的循环智能（Recurrent AI）累计融资 4 亿元，连续三年营收增长超 200%。由杨植麟博士带领研发的产品及解决方案已成功应用于银行、保险、房地产和汽车等行业，日均处理对话超一亿次、覆盖数百万终端用户。其研究成果累计 Google Scholar 引用 10,000 余次；作为第一作者发表 Transformer-XL 和 XLNet，对 NLP 领域的学术研究和商业应用都产生重大影响，分别是 ACL 2019 和 NeurIPS 2019 最高引论文之一；主导开发的盘古 NLP 大模型获 2021 年世界人工智能大会“卓越人工智能引领者之星奖”；曾入选 2021 年“福布斯亚洲 30 under 30”；曾效力于 Google Brain 和 Facebook AI，博士毕业于美国卡内基梅隆大学，本科毕业于清华大学。

趋势圆桌：通用（大）模型的最后一公里？

胡瀚，微软亚洲研究院研究员
陈虞君，循环智能（Recurrent AI）人工智能部门资深算法总监
楚航，Autodesk AI Lab 研究科学家、Daily Arxiv Radiostation 主持人

陈虞君，循环智能（Recurrent AI）人工智能部门资深算法总监

陈虞君博士是循环智能（Recurrent AI）人工智能部门资深算法总监。主要研究方向为自然语言处理与语音识别。曾参与国家基金委、科技部等科研项目十余项。2021 年作为核心成员参与开发的盘古 NLP 大模型，在中文自然语言评测榜单 CLUE 上打破包括总榜在内的三项记录，同时盘古大模型获得 2021 年世界人工智能大会 “卓越人工智能引领者（SAIL）之星” 奖。其语音识别与自然语言处理研究成果在银行、保险、房地产和汽车等行业已规模化落地应用，日均处理超过 1 亿次对话。陈虞君毕业于北京航空航天大学计算机专业，获得博士学位。

楚航，Autodesk AI Lab 研究科学家、Daily Arxiv Radiostation 主持人

楚航，计算机视觉研究者。现任职 Autodesk 人工智能实验室首席研究科学家，致力于为工业建筑及动画中的设计场景提供智能解决方案。曾分别就读于上海交通、康奈尔、及多伦多大学，长期致力于使用人工智能技术构建生成元宇宙内容的研究。同时与罗若天一并发起了 Daily Arxiv Radiostation。

2022 年 1 月 24 日 —— 1 月 28 日精彩议程如下

作为「与 AI 俱进，化时光为翎」机器之心 2021-2022 跨年特别策划中的重要组成部分，「机器之心 2021-2022 年度 AI 趋势大咖说」聚焦「驱动未来的 AI 技术」与「重塑产业的 AI 科技」，推出线上分享，邀请行业精英、读者、观众共同回顾 2021 年中的重要技术和学术热点，盘点 AI 产业的年度研究方向以及重大科技突破，展望 2022 年度 AI 技术发展方向、AI 技术与产业科技融合趋势。

2022 年 1 月 24 日（周一）至 1 月 28 日（周五）每晚 7 点至 9 点，近 20 位高校教授、技术专家及技术企业高管将做客机器之心「2020-2021 年度 AI 技术趋势洞察」直播间，共同探讨「通往第三代人工智能的理论之路如何走？」、「通用（大）模型的最后一公里」、「如何突破 AI 实践中的资源限制与壁垒？」、「构建元宇宙基础设施的 AI 技术」和「通向可信人工智能的技术路径」五个与 AI 技术人息息相关话题，洞察 AI 技术在 「AI 算法理论」、「ML 模型架构」、「AI 算法工程化」及「热点 AI 应用技术」 四大方面的发展趋势与潮水所向。 关注机器之心机动组视频号，1 月 24 日晚 7 点开播 ！