因果推理,PPT, 生成流网络,MAE...国际牛组去年「挖」出的新思路我们试着总结回顾了一下

2022 年 2 月 3 日 机器之心

壬寅虎年正月初二起,机器之心 SOTA!模型启动「虎卷er行动」连续五天解锁 1套五十道「年度大题」+  4套「年度回顾」复习资料,帮助各位老伙计快速温故知新、了解过去一年的重要AI技术工作为目标。


所有题目均已在正月初二公开,所有「年度大题」答案均藏在「虎卷er」的「年度回顾」复习资料。


在机器之心 SOTA!模型启动「虎卷er行动」的第二天,我们解锁第一套「年度回顾」复习资料「大牛组的工作」,帮助老伙计们回顾在过去的2021年在国际上引起普遍反响的新思路。


文末附本篇「年度回顾」对应全部五十道「年度大题」及答题通道入口,感兴趣的老伙计可以测测看 21年国际AI顶会、重要SOTA工作自己了解多少~~


1、Yoshua Bengio 等人新论文描绘了因果对机器学习的影响,并提出了该交叉领域的核心研究方向
收录时间:2021/2/22


Yoshua Bengio 等人在这篇论文中回顾了因果推理的基础概念,并将其与机器学习的关键开放性问题联系起来,如迁移与泛化,进而分析因果推理可能对机器学习研究做出的贡献。

反过来看也是如此:大多数因果研究的前提是因果变量。因此目前 AI 与因果领域的核心问题是因果表示学习,即基于低级观测值发现高级因果变量。

在论文的最后,作者描绘了因果对机器学习的影响,并提出了该交叉领域的核心研究方向。

2、唐杰、杨植麟等提出 P-tuning,自动搜索连续空间中的 Prompt,以提高 GPT 模型的自然语言理解能力
收录时间:2021/3/19


GPT-3 大型语言模型向我们展示了 AI 模型在生成自然语言文本方面的强大能力。

GPT-3 的成功表明,「巨大的单向语言模型 + 适当的手工 Prompt」这一组合可能有助于提高模型的自然语言理解能力。然而,手工制作表现最佳的 Prompt 无异于大海捞针,通常需要异常庞大的验证集。在很多情况下,有效的 Prompt 工程意味着过拟合测试集。而且,这很容易导致对抗 Prompt 的产生,进而导致模型性能大幅下降。

本文提出了一种名为 P-tuning 的新方法来自动搜索连续空间中的 prompt,以提高 GPT 模型的自然语言理解能力。

P-tuning 架构本身比较简单。给定一个预训练的语言模型,通过预训练的嵌入层将一组离散输入 token 映射到输入嵌入。prompt p 的作用是将上下文 x、目标 y 和自身组合成一个 template t。借助这种方式,该方法可以找到更好的连续 prompt,并通过下游损失函数对连续 prompt 进行优化。

实验结果表明,利用 P-tuning 方法,GPT 的自然语言能力可以匹敌 BERT。而且,P-tuning 还可以提高 BERT 在 few-shot 和监督场景下的性能。

3、GitHub 和 OpenAI 联合发布 AI 编程辅助工具 GitHub Copilot,使用数十亿行代码进行训练
收录时间:2021/6/29


2021年6月份,GitHub 与OpenAI共同推出了一款AI编程工具GitHub Copilot。GitHub Copilot基于 GitHub 及其他网站的源代码,可根据上文提示为程序员自动编写下文代码。

GitHub Copilot 是结对编程的虚拟版本。结对编程是一种常见的敏捷软件开发技术 —— 即两个开发人员在同一个项目上并肩协作,轮流编写代码并检查合作伙伴的输出。Copilot 可以支持十几种语言,与 Python、JavaScript、TypeScript、Ruby 和 Go 等主流语言配合效果更佳。

GitHub Copilot 还可以将注释转换为代码。只需要写一条评论,描述想要的逻辑,GitHub Copilot 就能自动“理解”并写出相应功能的代码,也能自动填充重复代码。

4、CMU 博士刘鹏飞发表关于 Prompt Learning 综述文章
收录时间:2021/7/29


近几年,NLP 技术发展迅猛,特别是 BERT 的出现,开启了 NLP 领域新一轮的发展。从 BERT 开始,对预训练模型进行 Finetune 已经成为了整个领域的常规范式。

但是从 GPT-3 开始,一种新的范式开始引起大家的关注并越来越流行:prompting。
该综述研究试图通过提供 prompting 方法的概述和形式化定义,以及使用这些 prompt 的预训练语言模型的概述,来梳理这一迅速发展领域的当前知识状态。然后该论文对 prompt 方法进行了深入的讨论,包括 prompt 工程、answer 工程等基础和多 prompt 学习方法、prompt 相关的训练方法等更高级的概念。

该研究列出了已有的基于 prompt 学习方法的多种应用,并探讨了不同应用场景中如何选择合适的训练方法。最后,该研究尝试在研究生态系统中定位 prompt 方法的当前状态,并与其他研究领域建立联系。此外,该研究提出一些可能适合进一步研究的挑战性问题,并针对当前研究趋势进行了分析。

5、何恺明团队针对 Transformer 在自监督学习框架中存在的训练不稳定问题,提出了一种简单而有效的技巧 Random Patch Projection
收录时间: 2021/8/17


论文是 FAIR 的何恺明团队针对自监督学习 + Transformer 的一篇实证研究。

针对 Transformer 在自监督学习框架中存在的训练不稳定问题,研究者提出了一种简单而有效的技巧:Random Patch Projection,它不仅适用于 MoCoV3 框架,同样适用于其他自监督学习框架(比如SimCLR、BYOL)。

与此同时,从不同角度的对比分析得出:Transformer 中的位置信息尚未得到充分探索,即 Transformer 仍有继续改善的空间。

6、Percy Liang、李飞飞等 100 多位研究者系统阐述了大规模预训练模型背后的机遇与风险,并统一给这些模型取名为 Foundation Model
收录时间: 2021/8/19


如今,NLP 领域几乎所有的 SOTA 模型都是少数几个基于 Transformer 的大模型进化而来。而且,这种趋势正在向图像、语音、蛋白质序列预测、强化学习等多个领域蔓延。整个 AI 社区似乎出现了一种大一统的趋势。过去一年,Transformer 在各个领域都表现出了颠覆性的统治力。

除了 CV 和 NLP,在 Graph 领域过去占主流地位的 GNN 如今也受到 Transformer 的挑战。毋庸置疑,这种同质化是有好处的,大模型的任何一点改进就可以迅速覆盖整个社区。但同时,它也带来了一些隐患,因为大模型的缺陷也会被所有下游模型所继承。在此背景下,李飞飞等 100 多位研究者系统地阐述了大规模预训练模型背后的机遇与风险,并统一给这些模型取名为 Foundation Model。

7、清华刘知远、黄民烈团队提出新框架 PPT,让超大模型调参变简单
收录时间:2021/9/14


近年来,微调预训练语言模型(PLM)取得了很大进展。通过微调 PLM 的全部参数,从大规模无标签语料库中获得的多方面知识可以用于处理各种 NLP 任务,并优于从头学习模型的方法。为简单起见,此处将这种全模型调整(full-model tuning)称为 FT。

主流的 FT 方法共有两种:第一种是任务导向的微调,第二种是以 prompt 为导向的微调。尽管这两种 FT 方法已经显示出很好的结果,但随着模型规模的迅速扩张,为每个下游任务微调一个完整的大模型正变得越来越昂贵。

为了应对这一挑战,提出了 prompt tuning(PT),以降低为下游任务微调大模型的成本。

具体来说,PT 采用包含连续嵌入的 soft prompt 代替 hard prompt(离散语言短语)。这些连续 prompt 嵌入通常是随机初始化和端到端学习的。为了避免为每个下游任务存储整个模型,PT 冻结了 PLM 的所有参数,只调整 soft prompt,无需添加任何中间层和 task-specific 组件。尽管 PT 具有很少的可调参数和简单的设计,但它仍然可以媲美 FT。

8、Yann LeCun 团队提出端到端调制检测器 MDETR,能够根据原始文本查询直接检测图像中的目标
收录时间: 2021/10/12


目前,多模态推理模型大多都依赖于预先训练好的目标检测器来从图像中提取 proposal 。然而检测器只能检测出固定类别的目标,这使得模型很难适应自由文本中视觉concept的长尾分布。

因此本文提出了 MDETR ,一种端到端调制检测器,能够根据原始文本 query 直接来检测图像中的目标,基于Transformer的结构,通过在模型的早期阶段融合这两种模态的信息,来对文本和图像进行共同的推理。最终,MDETR 在检测和多个下游任务上都取得了 SOTA 的性能。

9、MIT 韩松团队提出 MUCNetV2,极大程度上解决了 TinyDL 的内存瓶颈问题
收录时间:2021/10/29


由于有限的内存,MCU(MicroController Units, MCU)端的 TinyDL 极具挑战性。MIT 韩松团队发现:内存瓶颈源于 CNN 设计导致的内存分布不平衡 ,即网络的前几个模块具有比其他模块大的多的内存占用。

为缓解该问题,本文提出一种广义的 patch-by-patch 推理机制,它仅对特征图的局部区域进行处理,大幅降低了峰值内存。然而,常规的实现方式会带来重叠块与计算复杂问题。同时进一步提出了 recptive field redistribution 调整感受野与FLOPs 以降低整体计算负载。人工方式重分布感受野无疑非常困难。作者采用NAS对网络架构与推理机制进行联合优化得到了本文的 MCUNetV2。所提推理机制能大幅降低峰值内存达 4-8 倍。

所推 MCUNetV2 取得了 MCU 端新的 ImageNet 分类记录71.8% ;更重要的是,MCUNetV2 解锁了 MCU 端执行稠密预测任务的可能性,如目标检测取得了比已有方案高16.9%mAP@VOC 的指标。本研究极大程度上解决了 TinyDL 的内存瓶颈问题,为图像分类之外的其他视觉应用铺平了道路。

10、Yoshua Bengio 一作论文提出了生成流网络 GFlowNets
收录时间:2021/11/18


论文是图灵奖获得者 Yoshua Bengio 对 AI 领域未来的方向提出的新想法——名为「生成流网络」(Generative Flow Networks,GFlowNets)的重要概念。

GFlowNets 灵感来源于信息在时序差分 RL 方法中的传播方式(Sutton 和 Barto,2018 年)。两者都依赖于 credit assignment 一致性原则,它们只有在训练收敛时才能实现渐近。

由于状态空间中的路径数量呈指数级增长,因此实现梯度的精确计算比较困难,因此,这两种方法都依赖于不同组件之间的局部一致性和一个训练目标,即如果所有学习的组件相互之间都是局部一致性的,那么我们就得到了一个系统,该系统可以进行全局估计。

本文为主动学习场景提供了形式化理论基础和理论结果集的扩展,同时也为主动学习场景提供了更广泛的方式。

GFlowNets 可以应用于:对集合和图进行一般概率运算,例如可以处理较难的边缘化问题,估计配分函数和自由能,计算给定子集的超集条件概率,估计熵、互信息等。

11、何恺明一作论文提出 Masked Autoencoders(MAE),可用作计算机视觉的可扩展自监督学习器
收录时间:2021/12/20


是什么导致了掩蔽自编码器在 CV 与 NLP 中表现的差异呢?何恺明等研究者尝试从以下几个角度来回答这一问题 ——

角度一:架构差异。在计算机视觉领域,卷积网络是过去十年的主流架构。不过,随着 Vision Transformers(ViT)的推出,这种架构上的差异已经逐渐缩小,应该不会再成为障碍。

角度二:信息密度差异。语言是人类产生的高度语义化信号,信息非常密集。当训练一个模型来预测每个句子中缺失的寥寥数词时,这项任务似乎能诱发复杂的语言理解。但视觉任务就不同了:图像是自然信号,拥有大量的空间冗余。例如,一个缺失的 Patch 可以根据相邻的 Patch 恢复,而不需要对其他部分、对象和场景有很多的高级理解。

角度三:自编码器的解码器(将潜在表征映射回输入)在文本和图像重建任务中起着不同的作用。在计算机视觉任务中,解码器重建的是像素,因此其输出的语义水平低于一般的识别任务。这与语言相反,语言任务中的解码器预测的是包含丰富语义信息的缺失单词。虽然在 BERT 中,解码器可能是微不足道的(一个 MLP),但何恺明等研究者发现,对于图像,解码器的设计对于学到的潜在表示的语义水平起着关键作用。

基于上述三点分析,作者提出了一种用于视觉表达学习的掩码自编码器 MAE。

MAE 采用了非对称的编解码器架构,编码器仅作用于可见图像块(即输入图像块中一定比例进行丢弃,丢弃比例高达75%)并生成隐式表达,解码器则以掩码 Token 以及隐式表达作为输入并对遗失块进行重建。

搭配 MAE的 ViT-H 取得了 ImageNet-1K 数据集上的新记录:87.8%;同时,经由 MAE 预训练的模型具有非常好的泛化性能。

在SOTA!模型推出的「虎卷er行动」中,我们基于2021年度国际AI顶会「Best Papers」、重要SOTA工作,形成总计五十道年度大题。具体分布如下:
  • 「Best Papers」:共 7 题
  • 「大牛组的工作」:共 12 题
  • 「大模型」:共 19 题
  • 「刷爆基准的SOTA工作」:共 12 题


1
浪潮发布的 2457 亿参数模型叫什么?
源1.0
潮1.0
涌1.0
浪1.0
2
1350 亿参数的大规模稀疏模型 MEB 是谁推出的?
清华大学
微软
百度
DeepMind
3
百度与鹏城实验室联合发布 2600 亿参数模型鹏城 - 百度 · 文心版本为?
ERNIE 1.0
ERNIE 2.0
ERNIE 3.0
ERNIE 3.0 Titan
4
Quoc Le 等来自谷歌的研究者发布的模型 FLAN,零样本性能超越小样本,它的参数量是多少?
1070 亿
1370 亿
1730 亿
2370 亿
5
阿里达摩院提出半监督视频目标分割新算法 LCM,在 DAVIS 2016 数据集以多少 Overall Score 超过先前 SOTA?
90.30%
90.70%
91.20%
91.30%
6
谷歌、罗格斯大学提出 NesT,凭借多少参数取得了超越 Swin Transformer 的性能?
62M
64M
66M
68M
7
谷歌大脑提出全新图神经网络 GKATs,它没有结合以下哪种方法?
Graph Kernels
Attention-based Networks with Structural Priors
Efficient Transformers Architectures
Dueling Network
8
百度提出的跨模态文档理解模型,登顶 DocVQA 榜首,该模型名称是?
ERNIE-UNIMO
ERNIE-ViLG
ERNIE-Layout
ERNIE-TITAN
9
微软提出的 Florence 在 ImageNet-1K 零试分类任务中 Top-1 准确率以多少的分数取得了 SOTA?
79.82
83.74
88.69
91.82
10
哪个大厂提出适用于视觉任务的大规模预训练方法 iBOT,刷新十几项 SOTA,部分指标超 MAE
阿里达摩院
字节跳动
腾讯
美团
11
35 亿参数文本生成图像新模型 GLIDE 是哪个机构推出的?
Nvidia
Megvii
Google
OpenAI
12
MIT 韩松团队提出 MUCNetV2,极大程度上解决了内存瓶颈源于什么设计导致的内存分布不平衡问题?
RNN
DNN
CNN
GNN
13
描绘了因果对机器学习的影响,并提出了该交叉领域的核心研究方向是来自哪一个团队的论文?
Geoffrey Hinton
Yoshua Bengio
Yann LeCun
John Hopcroft
14
Facebook 提出的 13 亿参数 CV 新模型 SEER 采用以下哪种方法训练?
强化学习
无监督
自监督
半监督
15
何恺明团队提出的
Random Patch Projection 是针对 Transformer 在什么学习框架中存在的训练不稳定问题?
半监督
自监督
强化学习
无监督
16
全球首个百亿参数中英文对话预训练生成模型 PLATO-XL 是基于以下哪个平台所研发的?
TensorFlow
PyTorch
PaddlePaddle
MindSpore
17
达摩院推出十万亿参数超大规模通用性人工智能大模型 M6-10T,该模型使用 512 GPU 在多少天内即训练出具有可用水平的 10 万亿模型?
5天
10天
20天
30天
18
清华刘知远、黄民烈提出的新框架 PPT 代表了什么?
Pre-trained Prompt Tuning
PowerPoint
Percentage Points
Precision Pressure Transducer
19
DeepMind 提出 2800 亿参数的 Gopher,以下哪个说法是错误的?
Gopher 以自回归 LSTM 架构为基础
DeepMind 采用 JAX 来构建训练和评估的代码库
DeepMind 结合了 bfloat16 数字格式来减少内存并增加训练吞吐量
DeepMind 使用了 Adam 优化器,所有模型的训练共有 3000 亿个 token
20
何恺明一作论文提出 Masked Autoencoders(MAE),该论文试图从下面哪几个角度研究导致自编码器在 CV 与 NLP 中表现的差异?
架构差异
信息密度差异
自编码器的解码器在文本和图像重建任务中的不同作用
以上都是
21
李飞飞等 100 多位研究者系统阐述了大规模预训练模型背后的机遇与风险,并统一给这些模型取名为?
Foundation Model
Active Model
Zero-Shot Model
Supervised Model
22
谷歌推出的视觉 Transformer 模型 ViT-G/14 的参数量属于哪种模型规模?
M(亿级)
L(百亿级)
XL(千亿级)
XXL(万亿级)
23
华为联合鹏城实验室开源的中文预训练模型盘古α 参数量属于哪种模型规模?
S(千万级)
M(亿级)
L(百亿级)
XL(千亿级)
24
生成流网络 GFlowNets 是谁提出的?
Geoffrey Hinton
Yoshua Bengio
Yann LeCun
John Hopcroft
25
谷歌推出的 Switch Transformer 参数量属于哪种模型规模?
M(亿级)
L(百亿级)
XL(千亿级)
XXL(万亿级)
26
30 亿参数的 Swin Transformer V2 没有在哪个数据集下取得过 SOTA?
ImageNet
ImageNet V2
COCO test-dev
ADE20K
27
智源发布的悟道 2.0 的参数量为?
1.5 亿
1.75 亿
1.5 万亿
1.75 万亿
28
阿里达摩院发布 270 亿参数支持小说续写、诗词生成等能力的中文预训练语言模型名字是?
PUBG
PLUG
BLUG
BUPG
29
字节跳动提出 GLAT(Glancing Transformer),获 WMT 2021 大语种德英自动评估第几名?
第一名
第二名
第五名
第六名
30
谷歌推出 Switch Transformer 的模型参数量?
1.2 万亿
1.5 万亿
1.8 万亿
1.6 万亿
31
FAIR 等提出能用于视频模型的预训练方法 MaskFeat 是采用了什么训练方式?
半监督
强化学习
自监督
无监督
32
在 Yann LeCun 团队提出端到端调制检测器 MDETR 的工作中,以下哪个损失函数没有被使用?
Soft Token Prediction Loss
Text-query Contrastive Alignment Loss
Hungarian Matching Loss
GAN Least Squares Loss
33
Facebook 推出有史以来第一个赢得 WMT 的多语言模型,并击败了双语模型,该模型涵盖 14 种语言方向,其中不包括哪种语言?
German
Japanese
Korean
Chinese
34
谷歌推出通用稀疏语言模型 GLaM,小样本学习打败 GPT-3,GLaM 的模型参数量是多少?
1.2 万亿
1.3 万亿
1.4 万亿
1.5 万亿
35
微信 AI 开源的那个可以在 700 美元电脑上训练 7 亿参数的的超大预训练模型训练系统叫啥?
派大星
海绵宝宝
哆啦 A 梦
章鱼哥
36
基于对比学习的文本表示模型 ConSERT 是谁提出的?
美团
百度
饿了么
滴滴
37
微软更新 DeBERTa 模型,单个 DeBERTa 模型在 SuperGLUE 上以多少的宏平均得分首次超过人类的分值(89.8)?
90.1
90.2
90.4
90.3
38
GitHub 联合哪个组织发布了 GitHub Copilot?
FAIR
OpenAI
谷歌
DeepMind
39
开悟 MOBA 多智能体强化学习大赛以哪款游戏为测试环境?
LOL
DOTA2
王者荣耀
决战平安京
40
DeepMind 开源的 AlphaFold2 在人类蛋白质结构上的预测率是多少?
98.50%
98.80%
98.60%
98.70%
41
微软亚研院、北大提出多模态预训练模型 Nüwa,在 8 种包含图像和视频处理的下游视觉任务上具有出色的合成效果,其中不包括哪一项?
Text-To-Video
Image Prediction
Image Completion
Sketch-To-Image
42
以下哪一个机构的学者没有参与 P-tuning 的设计?
MIT
清华大学
北京智源人工智能研究院
斯坦福
43
以下哪个可能是 NLP 最新的范式?
Fully Supervised Learning, Non-Neural Network
Fully Supervised Learning, Neural Network
Pre-train, Fine-tune
Pre-train, Prompt, Predict
44
在多种翻译任务上取得了 SOTA 的词表学习方案 VOLT 是哪个机构提出的?
百度
达摩院
腾讯
字节跳动
45
为长序列时间序列预测(LSTF)设计的一个高效的模型 Informer 是基于以下哪个模型?
RNN
Transformer
GRU
LSTM
46
Swin Transformer 获得了哪个顶会的奖项?
CVPR 2021
AAAI 2021
NeurIPS 2021
ICCV 2021
47
达特茅斯学院、德克萨斯大学奥斯汀分校等提出了一个基于哪种学习的框架来减轻生成文本中的政治偏见?
强化学习
自监督学习
无监督学习
弱监督学习
48
德国马克斯 · 普朗克智能系统研究所等提出 GIRAFFE 的工作在机器之心「Pop SOTA!List for AI Developers 2021」TOP 8 中的第几?
第二
第四
第六
第八
49
IJCAI 2021 杰出论文奖之一是林雪平大学和庞培法布拉大学提出从广义规划的角度来处理经典规划问题,并学习描述整个规划领域不可解性的一阶公式。研究者是将该问题转换为什么任务进行分析?
自监督分类任务
无监督分类任务
半监督分类任务
半监督回归任务
50
比较模型生成的文本和人类生成的文本分布的散度测量方法 MAUVE 是哪个顶会的获奖论文?
ICML 2021
AAAI 2021
ACL 2021
NeurIPS 2021

「虎卷er」五十道年度大题」现已解锁!
答题通道现已开启!
扫码进入「机器之心SOTA!模型」服务号,点击菜单栏「虎卷er」,开始答题~~

登录查看更多
0

相关内容

【Yoshua Bengio】走向因果表示学习,附论文、视频与72页ppt
【AAAI2021】预训练语言模型最新进展,附113页ppt和视频
专知会员服务
64+阅读 · 2021年2月23日
【AAAI2021】知识迁移的机器学习成员隐私保护,57页ppt
专知会员服务
27+阅读 · 2021年2月9日
最新《弱监督预训练语言模型微调》报告,52页ppt
专知会员服务
37+阅读 · 2020年12月26日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文
专知会员服务
71+阅读 · 2019年11月3日
迁移Prompt–解决Prompt Tuning三大问题!
夕小瑶的卖萌屋
8+阅读 · 2021年12月15日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2022年4月17日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员