何恺明时隔2年再发一作论文：为视觉大模型开路，“CVPR 2022最佳论文候选预定”

会员服务 ·

何恺明时隔2年再发一作论文：为视觉大模型开路，“CVPR 2022最佳论文候选预定”

2021 年 11 月 13 日 量子位

杨净明敏雷刚发自凹非寺
量子位报道 | 公众号 QbitAI

大神话不多，但每一次一作论文，必定引发江湖震动。

这不，距离上一篇一作论文2年之后，何恺明再次以一作身份，带来最新研究。

依然是视觉领域的研究，依然是何恺明式的大道至简。

甚至在业内纷纷追求“大力出奇迹”、“暴力美学”的当下，何恺明还带着一种坚持独立思考的反共识气概。

简洁：通篇论文没有一个公式。

有效：大巧不工，用最简单的方法展现精妙之美。

江湖震动：“CVPR 2022最佳论文候选预定”。

所以，何恺明新作：

Masked Autoencoders Are Scalable Vision Learners

究竟有怎样的思想和研究成果？

用于CV的自监督学习方案

本文提出了一种用于计算机视觉的Masked AutoEncoders 掩蔽自编码器，简称MAE。

——一种类似于NLP技术的自我监督方法。

操作很简单：对输入图像的随机区块进行掩蔽，然后重建缺失的像素。

主要有两个核心设计。

一个是非对称的编码-解码架构，一个高比例遮蔽输入图像。

先来看编码-解码架构。

如图所示，编码器是ViT，它仅对可见区块进行操作，然后用一个轻量级编码器——仅在预训练期间负责图像重建任务。

具体而言，作者先将图像均匀划分为非重叠区块，然后随机对区块进行采样。

以遮蔽比例75%为例，它先在输入图像中掩蔽75%的随机区块，编码器只在可见的25%区块子集上运行，这样就可以只用非常少的计算和显存，来训练非常大的编码器。

然后解码器将可见的token和掩码token组合，并向所有token中添加位置嵌入，通过预测每个掩蔽区块的像素值来重建图像信号。

这样一来，在预训练时解码器可以独立于编码器，从而可以用非常轻量级解码器实验，大量减少预训练时间。

另一个特点则是对输入图像的高比例进行遮蔽时，自监督任务效果非常好。

比如，掩蔽掉80%随机patch的效果如下：

其中最左列为输入图像，中间列为MAE方法重建效果，最右侧为原图效果。

不同掩蔽比例在重建图像中的表现对比如下：

将这两种设计结合，结果用来训练大模型：

训练速度提升3倍以上，还提高准确率的那种。

除此之外，基于该方案所得出的大模型具备很好的泛化能力：

比如，在仅使用ImageNet-1K数据时，ViT-Huge模型准确性达87.8%。

在COCO数据集中的表现如下，虽然重建效果不清晰，但是基本语义是正确的。

研究者还对MAE迁移学习的性能进行了评估。

结果在下游任务，比如目标检测、实例分割、语义分割等任务都优于监督预训练。

在对比中可以看到，随机遮蔽75%、整块遮蔽50%和网格遮蔽50%的三种采样方法中，随机遮蔽75%重建图像的质量最好。

基于这些研究成果，何恺明团队在最后也表达了他们的看法。

一方面，扩展性好的简单算法是深度学习的核心。

在计算机视觉中，尽管自监督学习方面取得了进展，但实际预训练仍需受到监督。

这项研究中，作者看到ImageNet和迁移学习任务中，自编码器表现出了非常强的可扩展优势。

为此作者认为，CV中自监督学习现在可能正走上与NLP类似的轨道。

另一方面，作者注意，图像和语言是不同性质的信号，这种差异需要小心处理。

图像仅仅是记录下来的光，并没有语义分解为文字的视觉类似物。

他们不是去试图去除物体，而是去除可能不构成语义段的随机区块。重建的像素，也并不是语义实体。

研究团队

论文的研究团队，来自Facebook AI研究院（FAIR），每个人都屡屡获誉，堪称梦之队。

除了几位老将，我们这次再多说说里面的华人面孔。

Xinlei Chen，本科毕业于浙江大学计算机专业，随后在卡内基梅隆大学攻读博士学位，曾在UCLA、谷歌云、MSR实习。

谢赛宁，本科毕业于上海交通大学ACM班，随后在UC圣迭戈分校攻读计算机博士学位，曾在谷歌、DeepMind实习。

Yanghao Li，本科毕业于北京大学计算机专业，随后留在本校继续攻读硕士学位。

最后，再次隆重介绍下何恺明。

一作何恺明，想必大家都不陌生。作为Mask R-CNN的主要提出者，他已4次斩获顶会最佳论文。

何恺明是2003年广东高考状元，并保送了清华，进入杨振宁发起设立的物理系基础科学班。

硕博阶段，何恺明前往香港中文大学多媒体实验室，导师正是后来的商汤科技创始人汤晓鸥。

此间，何恺明还进入微软亚洲研究院实习，在孙剑指导下，以一作身份发表ResNet研究，一举成名天下知，荣获2016年CVPR最佳论文。

同年何恺明进入由Yann Lecun（获2019年图灵奖）掌舵的Facebook人工智能实验室，与Ross Girshick、Piotr Dollar——本次研究中的其他几位老面孔，组成了FAIR在AI研究领域的梦之队。

更加令人钦佩的是，何恺明年少成名，但这几年来依然不断潜心研究，一直带来新惊喜。

甚至他的新研究，很多都是那种可以开枝散叶的成果。

这一次，MAE同样被视为这样的延续。

你怎么看MAE？

论文链接
https://arxiv.org/abs/2111.06377

— 完 —

李开复老师邀你参加「MEET智能未来大会」，与大咖嘉宾、AI从业者共同探讨智能科技新未来！

限时优惠&免费报名中，即刻扫码、锁定席位吧~

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

一键三连「分享」「点赞」和「在看」

科技前沿进展日日相见 ~

登录查看更多

相关内容

何恺明

关注 7

何恺明，本科就读于清华大学，博士毕业于香港中文大学多媒体实验室。 2011年加入微软亚洲研究院（MSRA）工作，主要研究计算机视觉和深度学习。2016年，加入Facebook AI Research（FAIR）担任研究科学家

【AAAI 2022】用于文本摘要任务的序列级对比学习模型

专知会员服务

25+阅读 · 2022年1月11日

【NeurIPS 2021 】MST: 用于Transformer视觉表征的Masked自监督解读

专知会员服务

42+阅读 · 2021年12月11日

何恺明最新论文！用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders

专知会员服务

30+阅读 · 2021年11月13日

【AAAI2021最佳论文】基于高效 Transformer 的长时间序列预测

专知会员服务

62+阅读 · 2021年2月6日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知会员服务

147+阅读 · 2020年7月26日

FAIR和牛津大学VGG组最新论文：多模态自监督学习

CVer

11+阅读 · 2020年3月29日

KG 高引论文解读两篇 | 两种模型：多层卷积神经网络、知识感知路径递归网络

学术头条

18+阅读 · 2019年12月8日

FAIR最新视觉论文集锦：FPN，RetinaNet，Mask和Mask-X RCNN（含代码实现）

AI科技评论

16+阅读 · 2018年4月7日

2017年度最值得读的AI论文 | CV篇 · 评选结果公布

PaperWeekly

3+阅读 · 2018年1月31日

专栏 | MSRA研究员提出物体关系模块，实现首个完全端到端的物体检测系统

机器之心

5+阅读 · 2017年12月3日

Attention Forcing for Sequence-to-sequence Model Training

Arxiv

7+阅读 · 2019年9月26日

DC-SPP-YOLO: Dense Connection and Spatial Pyramid Pooling Based YOLO for Object Detection

Arxiv

3+阅读 · 2019年3月20日

Area Attention

Arxiv

5+阅读 · 2019年2月5日

Improving the Transformer Translation Model with Document-Level Context

Arxiv

4+阅读 · 2018年10月8日

Mask R-CNN

Arxiv

7+阅读 · 2018年1月24日

VIP会员