通用(大)模型的最后一公里:ETA计算中

2022 年 1 月 25 日 机器之心
自 2018 年谷歌推出 BERT(3.4 亿参数)以来,语言模型开始朝着「大」演进。国内外先后出现了参数量高达千亿甚至万亿的语言模型,比如谷歌的 T5(110 亿)、OpenAI 的 GPT-3(1,750 亿)、华为联合鹏城实验室的盘古(Pangu)(2000 亿),智源研究院的 WuDao2.0(1.75 万亿)……

基于注意力机制的 Transformer 架构已经席卷了 CV 领域,并成为研究和实践中日益流行的选择。此前,Transformer 被广泛用于 NLP 领域。有研究者仔细研究了自然语言处理中 Transformer 最优扩展,主要结论是大型模型不仅性能更好,而且更有效地使用了大量计算预算。

2022 年了,语言模型的参数的规模量卷到如此程度,它们究竟能做些什么?大模型又跨界到什么程度了呢?


在 2021 年 6 月的一篇论文中,原 ViT 团队成员、谷歌大脑的几位研究者集中研究了预训练 ViT 模型用于图像分类任务的迁移性能的扩展规则(scaling law)。研究者尝试对从 500 万到 20 亿个参数不等的模型进行了实验,从 3000 万到 30 亿个训练图像不等的数据集、低于 1 个 TPUv3 核每天(core-day)到超过 10000 个核每天进行计算预算。基于实验结果,文献描述了 ViT 模型的性能计算边界。


随着 BERT、DALL-E、GPT-3 等大规模预训练模型的出现,AI 社区正在经历一场范式转变。从计算机视觉到自然语言处理,从机器人学到推理、搜索,这些大模型已经无处不在,而且还在继续「野蛮生长」。

这种野蛮生长是大模型的有效性带来的必然结果。在 BERT 出现(2018 年)之前,语言模型的自监督学习本质上只是 NLP 的一个子领域,与其他 NLP 子领域并行发展。但在 BERT 横扫 11 项 NLP 任务之后,这种格局被打破了。2019 年之后,使用自监督学习构造语言模型俨然已经成为一种基础操作,因为使用 BERT 已经成为一种惯例。这标志着大模型时代的开始。

这一时代的重要标志是「同质化」。如今,NLP 领域几乎所有的 SOTA 模型都是少数几个基于 Transformer 的大模型进化而来。而且,这种趋势正在向图像、语音、蛋白质序列预测、强化学习等多个领域蔓延。整个 AI 社区似乎出现了一种大一统的趋势。

毋庸置疑,这种同质化是有好处的,大模型的任何一点改进就可以迅速覆盖整个社区。但同时,它也带来了一些隐患,因为大模型的缺陷也会被所有下游模型所继承。

大模型的强大能力来自巨大的参数空间的结合,这也导致它们的可解释性非常差,其能力和缺陷都存在不确定性。在这种情况下,盲目将整个研究范式向大模型转变真的可取吗?

此外,我们目前依然尚不清楚这些发现在多大程度上能够迁移到视觉领域。例如,视觉中最成功的预训练方案是有监督的,而 NLP 领域是无监督预训练。

2021 年 8 月,斯坦福大学的 Percy Liang、Rishi Bommasani(Percy Liang 的学生) 、李飞飞等 100 多位研究者联名发布了一篇系统探讨此问题的论文。在论文中,他们给这种大模型取了一个名字——「基础模型(foundation model)」,并系统探讨了基础模型的机遇与风险。「基础」代表至关重要,但并不完备。


在即将到来的一年里,在大规模预训练模型的跨界之路上,又将出现哪些变数?

  • - 「基础模型(foundation model)」是否将成为下一个 AI 范式?

  • - 「基础模型(foundation model)」的出现是否意味着距离实现「通用模型」只剩最后一公里的路程的?

  • - 针对细分应用领域,例如生化领域等,搞「专用模型」是否还有未来价值?「专用模型」又有哪些不一样的玩法?


2022 年 1 月 25 日晚 7 点,在机器之心年度特别策划 「驱动未来的 AI 技术 ——  2021-2022 年度 AI 技术趋势洞察」的「模型专场」,ICCV 2021 马尔奖(最佳论文奖)Swin Transformer 作者、微软亚洲研究院(MSRA)视觉计算组的主任研究员胡瀚博士,循环智能联合创始人 & 清华大学交叉信息院助理教授杨植麟,循环智能资深算法总监陈虞君,Autodesk AI Lab 研究科学家、Daily Arxiv Radiostation 主持人楚航 四位嘉宾将做客机器之心「2020-2021 年度 AI 技术趋势洞察」直播间,分别通过技术报告 「面向统一的 AI 模型架构和学习方法」、「对大规模预训练模型效率与泛化的新思考」 ,并共同就 「通用(大)模型的最后一公里」 等话题进行探讨。


嘉宾简介

技术报告:面向统一的 AI 模型架构和学习方法
胡瀚,微软亚洲研究院(MSRA)视觉计算组的主任研究员


胡瀚博士目前是微软亚洲研究院(MSRA)视觉计算组的主任研究员和研究经理。本科和博士毕业于清华大学自动化系,荣获中国人工智能学会优秀博士论文奖。曾就职于百度研究院深度学习实验室( IDL)。担任 CVPR2021/2022 的领域主席。目前主要研究兴趣包括视觉模型架构、视觉自监督表征学习和视觉语言联合学习等,是 Swin Transformer 系列、关系网络系列,可变形卷积系列的作者,其中 Swin Transformer 获得 ICCV2021 马尔奖(最佳论文)。

技术报告:大规模预训练模型的新思考:效率和泛化
杨植麟,循环智能联合创始人、清华大学交叉信息院助理教授


杨植麟博士是循环智能(Recurrent AI)联合创始人,智源青年科学家。其联合创办的循环智能(Recurrent AI)累计融资 4 亿元,连续三年营收增长超 200%。由杨植麟博士带领研发的产品及解决方案已成功应用于银行、保险、房地产和汽车等行业,日均处理对话超一亿次、覆盖数百万终端用户。其研究成果累计 Google Scholar 引用 10,000 余次;作为第一作者发表 Transformer-XL 和 XLNet,对 NLP 领域的学术研究和商业应用都产生重大影响,分别是 ACL 2019 和 NeurIPS 2019 最高引论文之一;主导开发的盘古 NLP 大模型获 2021 年世界人工智能大会“卓越人工智能引领者之星奖”;曾入选 2021 年“福布斯亚洲 30 under 30”;曾效力于 Google Brain 和 Facebook AI,博士毕业于美国卡内基梅隆大学,本科毕业于清华大学。

趋势圆桌:通用(大)模型的最后一公里?

  • 胡瀚,微软亚洲研究院研究员

  • 陈虞君,循环智能(Recurrent AI)人工智能部门资深算法总监

  • 楚航,Autodesk AI Lab 研究科学家、Daily Arxiv Radiostation 主持人


陈虞君,循环智能(Recurrent AI)人工智能部门资深算法总监


陈虞君博士是循环智能(Recurrent AI)人工智能部门资深算法总监。主要研究方向为自然语言处理与语音识别。曾参与国家基金委、科技部等科研项目十余项。2021 年作为核心成员参与开发的盘古 NLP 大模型,在中文自然语言评测榜单 CLUE 上打破包括总榜在内的三项记录,同时盘古大模型获得 2021 年世界人工智能大会 “卓越人工智能引领者(SAIL)之星” 奖。其语音识别与自然语言处理研究成果在银行、保险、房地产和汽车等行业已规模化落地应用,日均处理超过 1 亿次对话。陈虞君毕业于北京航空航天大学计算机专业,获得博士学位。

楚航,Autodesk AI Lab 研究科学家、Daily Arxiv Radiostation 主持人


楚航,计算机视觉研究者。现任职 Autodesk 人工智能实验室首席研究科学家,致力于为工业建筑及动画中的设计场景提供智能解决方案。曾分别就读于上海交通、康奈尔、及多伦多大学,长期致力于使用人工智能技术构建生成元宇宙内容的研究。同时与罗若天一并发起了 Daily Arxiv Radiostation。

2022 年 1 月 24 日 —— 1 月 28 日 精彩议程如下

作为「与 AI 俱进,化时光为翎」机器之心 2021-2022 跨年特别策划中的重要组成部分,「机器之心 2021-2022 年度 AI 趋势大咖说」聚焦「驱动未来的 AI 技术」与「重塑产业的 AI 科技」,推出线上分享,邀请行业精英、读者、观众共同回顾 2021 年中的重要技术和学术热点,盘点 AI 产业的年度研究方向以及重大科技突破,展望 2022 年度 AI 技术发展方向、AI 技术与产业科技融合趋势。 

2022 年 1 月 24 日(周一)至 1 月 28 日(周五)每晚 7 点至 9 点,近 20 位高校教授、技术专家及技术企业高管将做客机器之心「2020-2021 年度 AI 技术趋势洞察」直播间,共同探讨 「通往第三代人工智能的理论之路如何走?」、「通用(大)模型的最后一公里」、「如何突破 AI 实践中的资源限制与壁垒?」、「构建元宇宙基础设施的 AI 技术」和「通向可信人工智能的技术路径」 五个与 AI 技术人息息相关话题,洞察 AI 技术在 「AI 算法理论」、「ML 模型架构」、「AI 算法工程化」及「热点 AI 应用技术」 四大方面的发展趋势与潮水所向。 关注机器之心机动组视频号,1 月 24 日晚 7 点开播

登录查看更多
0

相关内容

大模型是基于海量多源数据打造的预训练模型,是对原有算法模型的技术升级和产品迭代,用户可通过开源或开放API/工具等形式进行模型零样本/小样本数据学习,以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。
专知会员服务
20+阅读 · 2021年8月29日
专知会员服务
44+阅读 · 2021年6月1日
专知会员服务
33+阅读 · 2020年11月25日
专知会员服务
44+阅读 · 2020年3月6日
黑箱优化:大规模语言模型的一种落地方式
机器之心
1+阅读 · 2022年1月12日
通用模型、全新框架,WavLM语音预训练模型全解
微软研究院AI头条
0+阅读 · 2021年12月23日
【机器学习】机器学习:未来十年研究热点
产业智能官
16+阅读 · 2018年11月4日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
27+阅读 · 2021年11月11日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Arxiv
23+阅读 · 2018年10月24日
VIP会员
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员