盘古α, Gopher, 派大星, GLIDE...18个中美大厂去年搞的大模型工作我们试着总结回顾了一下

2022 年 2 月 4 日 机器之心
壬寅虎年正月初二起,机器之心 SOTA!模型启动「虎卷er行动」连续五天解锁 1套五十道「年度大题」+  4套「年度回顾」复习资料,帮助各位老伙计快速温故知新、了解过去一年的重要AI技术工作为目标。所有题目均已在正月初二公开,所有「年度大题」答案均藏在「虎卷er」的「年度回顾」复习资料。

在机器之心 SOTA!模型启动「虎卷er行动」的第二天,我们解锁第二套「年度回顾」复习资料「大模型总部」,帮助老伙计们回顾在过去的2021年在国际上引起普遍反响的「大模型」。

文末附本篇「年度回顾」对应「年度大题」答题通道入口,感兴趣的老伙计可以测测看 21年国际AI顶会、重要SOTA工作自己了解多少~~


1、谷歌推出 1.6 万亿参数语 言模型 Switch Transformer,预训练速度最高可达 T5 的 7 倍
收录时间:2021/1/11
谷歌设计了一个名叫Switch Transformer的简化稀疏架构,可以将语言模型的参数量扩展至 1.6 万亿,超越GPT-3(GPT-3 是 1750 亿)。

在计算资源相同的情况下,Switch Transformer 的训练速度可以达到 T5 模型的 4-7 倍。在 Switch Transformer 的设计中,它们简化了 MoE 的路由算法(routing algorithm),设计了直观的改进模型,新模型的通信成本和计算成本都大大降低。此外,他们提出的训练技术还提高了训练的稳定性,首次表明大型稀疏模型也可以用低精度(bfloat16)进行训练。

2、Facebook 提出 13 亿参数自监督 CV 新模型 SEER,无标注预训练实现 SOTA
收录时间:2021/3/4
Facebook AI 用 10 亿张来自Instagram的随机、未标注图像预训练了一个参数量达 13 亿的自监督模型 SEER,该模型取得了自监督视觉模型的新 SOTA,可能会为计算机视觉领域打开一个新篇章。

SEER 是 SElf-supERvised 的缩写,包含 13 亿个参数,可以从互联网上的任何一组随机图像中学习,而不需要标记数据。

在开发 SEER 的过程中,Facebook 采用了一种称为 SwAV 的算法。SwAV 使用了一种聚类技术,可以快速地对来自相似视觉概念的图像进行分组,并利用它们的相似性,与以前最先进的自监督学习相比有了改进,同时所需的训练时间缩短为原来的1/6。

训练 SEER,还需要 VISSL 通用库,它一种基于 PyTorch 的全能库,用于自监督学习, 该库是开源的。VISSL 通过整合现有的几种算法,减少了对每个 GPU 的内存需要,提高了任意一个给定模型的训练速度,促进了大规模的自监督学习。

3、阿里达摩院发布 270 亿参数中文预训练语言模型 PLUG
收录时间:2021/4/18
在「炼大模型」的发展态势下,构建以中文为核心的超大规模预训练模型及生态势在必行。

2021年 4 月,阿里达摩院发布了中文社区最大规模预训练语言模型 PLUG。该模型参数规模达 270 亿,集语言理解与生成能力于一身,在小说创作、诗歌生成、智能问答等长文本生成领域表现突出。

PLUG的目标是通过超大模型的能力,大幅提升中文 NLP 各类任务的表现,取得超越人类表现的性能。目前,PLUG 已经开放了体验功能供学术领域试用。

4、华为联合鹏城实验室开源 2000 亿参数中文预训练模型盘古α
收录时间:2021/4/25
由华为诺亚方舟实验室、华为中央软件院、鹏城实验室以及北京大学相关技术团队组建的中文超大规模预训练语言「盘古α」联合攻关团队。

以「昇腾AI处理器」为基座,同时借助了「CANN 异构计算架构」,首次基于“鹏城云脑Ⅱ”和国产MindSpore框架的自动混合并行模式实现在2048卡算力集群上的大规模分布式训练,「盘古α」联合攻关团队训练出业界首个2000亿超大参数中文预训练模型「盘古α」。

「盘古α」引入随机词序生成,增加预训练难度,提升模型能力。引入预测模块(Predictor),预训练阶段通过位置向量诱导输出。

同时支持理解和生成任务,相比于GPT,「盘古α」模型设计阶段就考虑了其持续学习演化的能力,一是为了节省计算资源,还支持从顺序自回归模型过渡到随机词序自回归模型的增量训练,不同阶段的持续学习能力让模型具备随机词序的生成,具备更强的NLU能力。

5、美团提出 ConSERT,基于对比学习的文本表示模型,效果提升 8%
收录时间:2021/5/24
尽管基于BERT的模型在NLP诸多下游任务中取得了成功,直接从BERT导出的句向量表示往往被约束在一个很小的区域内,表现出很高的相似度,因而难以直接用于文本语义匹配。

为解决BERT原生句子表示这种“坍缩”现象,美团NLP中心知识图谱团队提出了基于对比学习的句子表示迁移方法——ConSERT,通过在目标领域的无监督语料上Fine-tune,使模型生成的句子表示与下游任务的数据分布更加适配。

在句子语义匹配(STS)任务的实验结果显示,同等设置下ConSERT相比此前的SOTA大幅提升了8%,并且在少样本场景下仍表现出较强的性能提升。

6、谷歌大脑推出 20 亿参数的视觉Transformer模型 ViT-G/14,刷新 ImageNet Top1
收录时间:2021/6/8
谷歌原 ViT 团队的几位成员尝试将 ViT 模型进行扩展,使用到了包含 30 亿图像的 JFT-3B 数据集,并提出了参数量高达 20 亿参数的 ViT 变体模型 ViT G/14,在 ImageNet 图像数据集上实现了新的 SOTA Top-1 准确率。

在 ImageNet 数据集上达到了新的 SOTA 性能 90.45% 的准确率。在 SOTA 基准排行榜上,ViT-G/14 模型的 Top-1 准确率已经超越了谷歌之前提出的 Meta Pseduo Labels 模型。该研究大大减少了原始 ViT 模型的内存占用,通过特定于硬件的体系架构更改和不同的优化器来实现这一点。

7、北京智源人工智能研究院发布悟道 2.0,参数量达 1.75 万亿
收录时间:2021/6/20

2021年 6 月在北京智源大会上,清华大学教授、智源研究院学术副院长唐杰正式发布了「悟道 2.0」人工智能巨模型。它以 1.75 万亿参数量打破了此前谷歌 Switch Transformer 预训练模型创造的 1.6 万亿参数记录,成为了全球最大的预训练模型。「悟道 2.0」不仅在预训练模型架构、微调算法、高效预训练框架方面实现了原始理论创新,在世界公认的多个 AI Benchmark 榜单上,该模型还取得了多项任务能力的领先地位。

8、微软推出 1350 亿参数的大规模稀疏模型 MEB
收录时间:2021/8/3

GPT-3 强大,但不是很「聪明」,来自微软的研究者提出了一种大规模稀疏模型「Make Every feature Binary(MEB)」,它改进了微软的生产型 Transformer 模型,以提升微软客户使用大规模 AI 时的搜索相关性。

为了使搜索更加准确和动态,MEB 更好地利用了大数据的力量,并允许输入特征空间具有超过 2000 亿个二值化特征,这些特征反映了搜索查询和文档之间的微妙关系。

MEB 能够为基于 Transformer 的深度学习模型提升搜索相关性,其中一个重要的原因是它可以将单个事实映射为特征,从而使 MEB 能够更细致地理解单个事实。例如,许多深度神经网络 (DNN) 语言模型在填写一句话的空白时可能会过度泛化:「(blank) can fly」。由于大多数 DNN 训练样本的结果是「birds can fly」,因此 DNN 语言模型可能会用「birds」这个词来填补空白。

MEB 通过将每个事实分配给一个特征来避免这种情况,例如借助分配权重来区分飞行能力,它可以针对使鸟等任何实体的每个特征执行此操作。MEB 与 Transformer 模型搭配使用,可以将模型提升到另一个分类级别,例如模型产生的结果将不是「鸟类会飞」,而是「鸟类会飞,但鸵鸟、企鹅等鸟类除外」。

9、百度发布 PLATO-XL,全球首个百亿参数中英文对话预训练生成模型
收录时间:2021/9/19
百度 NLP 于 2019 年 10 月预发布了通用领域的对话生成预训练模型 PLATO,在 ACL 2020 正式展示。2020 年升级为超大规模模型 PLATO-2,参数规模扩大到 16 亿,涵盖中英文版本,可就开放域话题深度畅聊。

百度 PLATO-XL参数规模首次突破百亿达到 110 亿,是当前最大规模的中英文对话生成模型。PLATO-XL 网络架构上承袭了 PLATO unified transformer 结构,可同时进行对话理解和回复生成的联合建模,参数性价比很高。通过灵活的注意力机制,模型对上文进行了双向编码,充分利用和理解上文信息;对回复进行了单向解码,适应回复生成的 auto-regressive 特性。此外,unified transformer 结构在对话上训练效率很高,这是由于对话样本长短不一,训练过程中 padding 补齐会带来大量的无效计算,unified transformer 可以对输入样本进行有效的排序,大幅提升训练效率。

为了进一步改善对话模型有时候自相矛盾的问题,PLATO-XL 引入了多角色感知的输入表示,以提升多轮对话上的一致性。PLATO-XL 包括中英文 2 个对话模型,预训练语料规模达到千亿级 token,模型规模高达 110 亿参数。PLATO-XL 也是完全基于百度自主研发的飞桨深度学习平台,利用了飞桨 FleetX 库的并行能力,使用了包括 recompute、sharded data parallelism 等策略,基于高性能 GPU 集群进行了训练。

10、浪潮发布 2457 亿参数模型源 1.0
收录时间:2021/10/11

浪潮人工智能研究院提出了目前世界上参数规模最大的中文预训练模型 源 1.0,拥有2457亿模型参数,并在多个NLP任务中取得SOTA,特别是在零样本和少样本学习领域成绩斐然。

源1.0背后的核心技术:
  1. 提出了一种大规模分布式模型训练方法加速巨量预训练模型训练速度。
  2. 搭建一套高效的训练数据挖掘流程,持续从海量的互联网挖掘5TB的高质量文本。
  3. 提出了一种校准方法和标签扩充的方法,解决预训练数据资label数据分布不均匀的问题,明显提升零样本和少样本领域预训练模型效果。

11、达摩院推出十万亿参数超大规模通用性人工智能大模型 M6-10T
收录时间:2021/10/24
2021年11月8日,阿里巴巴达摩院公布多模态大模型M6最新进展,其参数已从万亿跃迁至10万亿,规模远超谷歌、微软此前发布的万亿级模型,成为全球最大的AI预训练模型。同时,M6做到了业内极致的低碳高效,使用512 GPU在10天内即训练出具有可用水平的10万亿模型。相比去年发布的大模型GPT-3,M6实现同等参数规模,能耗仅为其1%。

达摩院提出了一个简单的训练策略,称为 "Pseudo-to-Real",用于高内存占用率要求的大型模型。Pseudo-to-Real与具有顺序层结构的大型模型兼容。除了展示 "Pseudo-to-Real "的应用,他们还提供了一种技术,即Granular CPU offloading(粒状CPU卸载),以管理CPU内存来训练大型模型,并保持高的GPU实用性。在适当数量的资源上快速训练极端规模的模型可以带来更小的碳足迹,并为更环保的人工智能做出贡献。

12、微信开源超大预训练模型训练系统 PatricStar
收录时间:2021/10/25
PTM预训练的过程具备高耗能、高成本、高碳等弊端——往往训练一次万亿级别的预训练模型要烧掉154万人民币,消耗的电能制释相当于数十辆小汽车从出厂到报废的碳排放总和。

今年12月,腾讯微信AI团队联合Tencent NLP Oteam于GitHub上发布开源项目派大星“PatrickStar”。该开源项目将聚焦解决GPT、BERT等超大模型训练时产生的“GPU内存墙”问题,使用更为创新的异构内存管理方法,让相同配置的机器能够训练更大的模型,以更节能环保的方式让预训练模型普惠每位NLP社区用户。

经测试结果显示,派大星性能表现优于微软DeepSpeed,在不到5000元价位的个人游戏电脑上,即可训练一个7亿参数的GPT模型。目前,派大星已参与到微信搜一搜、微信对话开放平台、小微智能音响等产品研发工作中,助力降低GPU卡使用数量,提升机器的利用率,减少数据中心的碳排放规模。

13、微软亚洲研究院升级 Swin Transformer,新版本 SwinTransformer V2 具有 30 亿个参数,在四个具有代表性的基准上刷新纪录
收录时间:2021/11/18
微软亚洲研究院发布升级版Swin Transformer V2,最高参数量可达30 亿,可处理尺寸图像。通过提升模型容量与输入分辨率,Swin Transformer在四个代表性基准数据集上取得了新记录:84.%@ImageNetV2、63.1 box 与54.4 max mAP@COCO、59.9mIoU@ADE20K以及86.8%@Kinetics-400(视频动作分类)。

此次新版本主要有以下几个方面的改进:
  1. 提出后规范化(Post Normalization)技术 与可缩放(Scaled)cosine注意力提升大视觉模型的稳定性;
  2. 提出log空间连续位置偏置 技术进行低分辨率预训练模型向高分辨率模型迁移。
  3. 共享了至关重要的实现细节 ,它可以大幅节省GPU显存占用以使得大视觉模型训练变得可行。

14、谷歌发布 1370 亿参数模型 FLAN,零样本性能超越小样本
收录时间:2021/12/1

Quoc Le 等来自谷歌的研究者探索了一种简单的方法来提高大型语言模型在零样本情况下的性能,从而扩大受众范围。他们认为 NLP 任务可以通过自然语言指令来描述,例如「这部影评的情绪是正面的还是负面的?」或者「把『how are you』译成汉语」。

该研究采用具有 1370亿参数的预训练模型并执行指令调整任务,对 60 多个通过自然语言指令表达的 NLP 任务进行调整。他们将这个结果模型称为 Finetuned LANguage Net,或 FLAN。

15、DeepMind 提出 2800 亿参数的 Gopher
收录时间:2021/12/8

在2021年12月8日发布的技术文献中,DeepMind 探索了 6 个不同大小的 Transformer 语言模型,参数量从 4400 万到 2800 亿不等,其中参数量最大的模型被命名为 Gopher,具有 2800 亿参数,他们并将整个模型集称为 Gopher 家族。DeepMind 采用自回归 Transformer 架构为基础,并进行了两处修改:将 LayerNorm 替换为 RMSNorm ;使用相对位置编码而不是绝对位置编码。

此外 DeepMind 使用拥有 32000 个词汇量的 SentencePiece 对文本进行 token 化,并使用字节级 backoff 来支持开放词汇模型。DeepMind 使用 Adam 优化器,所有模型的训练共有 3000 亿个 token,采用 2048token 上下文窗口方法。

DeepMind 结合了 bfloat16 数字格式来减少内存并增加训练吞吐量。DeepMind 采用 JAX 来构建训练和评估的代码库。DeepMind 发现 TPUv3 具有快速跨芯片通信的能力,因此数据、模型并行性在 TPUv3 上的开销都很低,并且在训练 Gopher 时仅产生 10% 的开销。

16、谷歌推出 1.2 万亿参数通用稀疏语言模型GLaM,小样本学习打败 GPT-3
收录时间:2021/12/13

由于扩展,GPT-3能够在语境学习任务中取得强大的结果。然而,训练这些大型密集的模型需要大量的计算资源。

为此,谷歌提出并开发了一个名为GLaM(Generalist Language Model)的通用语言模型,它使用稀疏激活的mixture-of-experts架构来扩展模型的容量,同时与密集的变体相比,训练成本也大大降低。最大的GLaM有1.2万亿个参数,比GPT-3大约大7倍。它所消耗的能量只有训练GPT-3的1/3,推理所需的计算跳数也只有一半,同时在29个NLP任务中仍然取得了更好的整体零点和单点性能。

17、OpenAI 推出 35亿参数文本生成图像新模型 GLIDE,媲美DALL·E
收录时间:2021/12/22

从年初 OpenAI 刷屏社区的 DALL-E 到英伟达生成逼真摄影的 GauGAN2,文本生成图像可谓是今年大火的一个研究方向。现在 OpenAI 又有了新的进展——35 亿参数的新模型 GLIDE。

OpenAI 以 64 × 64 的图像分辨率训练了一个具有 35 亿参数的文本条件扩散模型(text-conditional diffusion model ),以及一个具有 15 亿参数的文本条件上采样扩散模型(text-conditional upsampling diffusion model),该模型将图像分辨率提高到 256 × 256。

在新模型 GLIDE 中,OpenAI 将指导扩散(guided diffusion)应用于文本生成图像的问题。首先该研究训练了一个 35 亿参数的扩散模型,使用文本编码器以自然语言描述为条件,然后比较了两种指导扩散模型至文本 prompt 的方法:CLIP 指导和无分类器指导。通过人工和自动评估,该研究发现无分类器指导能够产生更高质量的图像。

18、百度与鹏城实验室联合发布 2600 亿参数模型鹏城 - 百度 · 文心,60 多项任务得到突破
收录时间:2021/12/22

2021年12月,百度与鹏城实验室联合发布全球首个知识增强千亿大模型——鹏城 - 百度 · 文心(ERNIE 3.0 Titan),是目前为止全球最大的中文单体模型。同时,百度产业级知识增强大模型 “文心” 全景图首次亮相。

鹏城 - 百度 · 文心是一款融合了自然语言理解和自然语言生成的全能模型,其参数量达到了 2600 亿,相对 GPT-3 的参数量提升 50%。而且,作为单体模型,该模型在实际运算中参与计算的参数可以达到稀疏大模型的百倍以上。鹏城 - 百度 · 文心已在机器阅读理解、文本分类、语义相似度计算等 60 多项任务中取得最好效果。此外,模型还在 30 余项小样本和零样本任务中取得了世界领先的成绩。

在SOTA!模型推出的「虎卷er行动」中,我们基于2021年度国际AI顶会「Best Papers」、重要SOTA工作,形成总计五十道年度大题。具体分布如下:
  • 「Best Papers」:共 7 题
  • 「大牛组的工作」:共 12 题
  • 「大模型」:共 19 题
  • 「刷爆基准的SOTA工作」:共 12 题


答题通道现已开启!点击「阅读原文」,进入「机器之心SOTA!模型」服务号,点击菜单栏即可开始答题。


登录查看更多
0

相关内容

大模型是基于海量多源数据打造的预训练模型,是对原有算法模型的技术升级和产品迭代,用户可通过开源或开放API/工具等形式进行模型零样本/小样本数据学习,以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。
专知会员服务
20+阅读 · 2021年9月16日
专知会员服务
83+阅读 · 2021年6月20日
多模态预训练模型简述
专知会员服务
110+阅读 · 2021年4月27日
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
58+阅读 · 2021年3月3日
模型压缩究竟在做什么?我们真的需要模型压缩么?
专知会员服务
28+阅读 · 2020年1月16日
稀疏大模型简述:从MoE、Sparse Attention到GLaM
夕小瑶的卖萌屋
13+阅读 · 2022年3月22日
聊一聊“超大模型”
夕小瑶的卖萌屋
1+阅读 · 2021年7月6日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
23+阅读 · 2020年9月16日
Arxiv
19+阅读 · 2018年3月28日
VIP会员
相关VIP内容
专知会员服务
20+阅读 · 2021年9月16日
专知会员服务
83+阅读 · 2021年6月20日
多模态预训练模型简述
专知会员服务
110+阅读 · 2021年4月27日
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
58+阅读 · 2021年3月3日
模型压缩究竟在做什么?我们真的需要模型压缩么?
专知会员服务
28+阅读 · 2020年1月16日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员