会员服务 ·

CV大神何恺明最新一作：视觉预训练新范式MAE！下一个CV大模型要来？

2021 年 11 月 13 日 新智元

新智元报道

编辑：David、桃子

【新智元导读】CV大神何恺明又出力作！团队提出MAE模型，将NLP领域大获成功的自监督预训练模式用在了计算机视觉任务上，效果拔群，在NLP和CV两大领域间架起了一座更简便的桥梁。

CV大神何恺明又出力作！

这次，何大神让BERT式预训练在CV上也能训的很好。

论文「Masked Autoencoders Are Scalable Vision Learners」证明了 masked autoencoders（MAE）是一种可扩展的计算机视觉自监督学习方法。

目前，该论文已于11月11日提交在arxiv上。

论文地址：https://arxiv.org/abs/2111.06377

论文成果简介

此文最大的贡献，可能是在NLP和CV两大领域之间架起了一座更简便的桥梁。

此前，大名鼎鼎的GPT和BERT已经将大型自然语言处理（NLP）模型的性能提升到了一个新的高度。

直观点讲，就是事先遮住一些文本片段，让AI模型通过自监督学习，通过海量语料库的预训练，逐步掌握上下文语境，把这些被遮住的片段，用尽可能合乎逻辑的方式填回去。

这和我们做「完形填空」的方式有些类似。经过海量数据的学习和训练，AI模型慢慢学会了自己生成自然文本。目前，随着GPT及其后续改进模型的不断进步，生成的自然文本几乎可以乱真。

现在，何恺明的这篇文章把NLP领域已被证明极其有效的方式，用在了计算机视觉（CV）领域，而且模型更简单。

一起先来看下效果：

遮住95%的像素后，仍能还原出物体的轮廓，这居然还能work！

本文提出了一种掩膜自编码器 (MAE)架构，可以作为计算机视觉的可扩展自监督学习器使用，而且效果拔群。

实现方法很简单：先将输入图像的随机部分予以屏蔽（Mask），再重建丢失的像素。

MAE模型结构与实现

本文提出的MAE架构如下：

在预训练期间，大比例的随机的图像块子集（如 75%）被屏蔽掉。编码器用于可见patch的小子集。在编码器之后引入掩码标记，并且完整的编码块和掩码标记集由一个小型解码器处理，该解码器以像素为单位重建原始图像。

预训练后，解码器被丢弃，编码器应用于未损坏的图像以生成识别任务的表示。

MAE 是一种简单的自编码方法，可以在给定部分观察的情况下重建原始信号。由编码器将观察到的信号映射到潜在表示，再由解码器从潜在表示重建原始信号。

与经典的自动编码器不同，MAE采用非对称设计，允许编码器仅对部分观察信号（无掩码标记）进行操作，并采用轻量级解码器从潜在表示和掩码标记中重建完整信号。

掩膜

将图像划分为规则的非重叠patch。对patch的子集进行采样并屏蔽剩余patch。我们的采样策略很简单：均匀分布，简单称为“随机抽样”。

MAE 编码器

编码器仅适用于可见的、未屏蔽的patch。编码器通过添加位置嵌入的线性投影嵌入patch，然后通过一系列 Transformer 块处理结果集。编码器只对整个集合的一小部分（如 25%）进行操作。

被屏蔽的patch会被移除；不使用掩码令牌。这样可以节约计算资源，使用一小部分计算和内存来训练非常大的编码器。

MAE解码器

解码器的输入是完整的令牌集。每个掩码标记代表一个共享的、学习过的向量，表示存在要预测的缺失patch。

解码器仅在预训练期间用于执行图像重建任务。因此，它的设计可以独立于编码器。实验中使用的解码器更加轻量级。通过这种非对称设计，显著减少了预训练时间。

图像目标的重建

MAE 通过预测每个掩码块的像素值来重建输入图像。

解码器输出中的每个元素都是一个表示补丁的像素值向量。解码器的最后一层是线性投影，其输出通道的数量等于补丁中像素值的数量。解码器的输出被重新整形以形成重建的图像。

MAE 预训练实施效率高，实现方式简单，而且不需要任何专门的稀疏操作。

从上图可以看出，随着输入图像被遮住的比例升高，MAE的性能迅速上升，在75%左右达到最佳效果。

性能惊艳：ImageNet-1K最高87.8%

与当前SOTA自监督预训练方法相比，对于 ViT-B 的表现结果都很接近。对于 ViT-L不同方法的结果就存在很大差距，这表明更大模型的挑战是减少过度拟合。

再看最后一列，仅使用ImageNet-1K数据时，ViT-Huge模型的最高精确度为87.8%，这明显超过了所有在ImageNet-21K 预训练的ViT变种模型。

作者总结道，与 BEiT方法相比，MAE更准确、更简单、更高效。

网友：respect

「现在是2021年11月12日中午，恺明刚放出来几个小时，就预定了CVPR2022 best paper candidate（这里说的是best paper candidate，不是best paper）」

这篇文章推翻了之前视觉自监督领域的统领范式（NLP里面确实用的比较多，但是CV里面用的并不多），提出了简单本质有效的自监督方法: 基于mask和autoencoder的恢复方法。

「大致看了一遍，做的很solid，在iGPT和BEiT的基础上，化繁为简，找出了最关键的点，能够让BERT式预训练在CV上也能训到很好！未来可以预见能比肩GPT3的CV大模型不远矣。」

「只想说，凯明大佬cv封神！！！膜拜大佬，求今年cvpr中签。」

作者介绍

何恺明，本科就读于清华大学，博士毕业于香港中文大学多媒体实验室。

2011年加入微软亚洲研究院（MSRA）工作，主要研究计算机视觉和深度学习。2016年，加入Facebook AI Research（FAIR）担任研究科学家。

2020年1月11日，荣登AI全球最具影响力学者榜单。

参考资料：

https://arxiv.org/abs/2111.06377

https://www.zhihu.com/question/498364155/answers/updated

https://www.zhihu.com/question/498364155/answer/2219622610

登录查看更多

相关内容

掩码自编码MAE

关注 1

掩码自编码MAE

ICLR 2022 | BEIT论文解读：将MLM无监督预训练应用到CV领域

专知会员服务

33+阅读 · 2022年3月24日

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

专知会员服务

32+阅读 · 2022年3月12日

【NeurIPS 2021 】MST: 用于Transformer视觉表征的Masked自监督解读

专知会员服务

42+阅读 · 2021年12月11日

何恺明最新论文！用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders

专知会员服务

30+阅读 · 2021年11月13日

【NeurIPS2021】ResT:一个有效的视觉识别转换器

专知会员服务

23+阅读 · 2021年10月25日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

SiT: 自监督视觉Transformer

专知会员服务

65+阅读 · 2021年4月11日

何恺明团队新论文！自监督学习+Transformer=MoCoV3，解决训练不稳定性

专知会员服务

37+阅读 · 2021年4月7日

【CVPR2021】用Transformers无监督预训练进行目标检测

专知会员服务

58+阅读 · 2021年3月3日

重磅！Geoffrey Hinton新论文「视觉表示对比学习简单框架」自监督学习建立新SOTA-ImageNet准确率76.5%

专知会员服务

33+阅读 · 2020年2月15日

何恺明一作MAE收录CVPR 2022 Oral！高达87.8%准确率！自监督领域新代表作

CVer

0+阅读 · 2022年4月12日

爆肝何恺明的视觉预训练新范式MAE！

CVer

2+阅读 · 2022年1月12日

FAIR新作MaskFeat：自监督视觉预训练新方法！部分超越何恺明MAE！灵感竟来自16年前CVPR论文

CVer

0+阅读 · 2021年12月21日

北大美女学霸力压大神何恺明新作MAE！怒摘12个SOTA，灵感竟来自16年前CVPR论文

新智元

0+阅读 · 2021年12月20日

中科大、MSRA提出视觉Transformer BERT预训练新方式，优于MAE、BEiT

PaperWeekly

1+阅读 · 2021年12月5日

视觉Transformer BERT预训练新方式：中科大、MSRA等提出PeCo，优于MAE、BEiT

机器之心

0+阅读 · 2021年12月3日

深度了解自监督学习，就看这篇解读！何恺明新作MAE：通向CV大模型

极市平台

0+阅读 · 2021年11月21日

何恺明最新一作论文：简单实用的自监督学习掩码自编码MAE，ImageNet-1K 87.8%！CVPR 2022最佳

专知

1+阅读 · 2021年11月13日

大道至简，何恺明新论文火了：Masked Autoencoders让计算机视觉通向大模型

机器之心

0+阅读 · 2021年11月13日

何恺明最新工作：简单实用的自监督学习方案MAE，ImageNet-1K 87.8%！

极市平台

1+阅读 · 2021年11月12日

推荐系统的信息核挖掘及其应用研究

国家自然科学基金

8+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

脊髓损伤后运动神经环路重建的细胞分子机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于小框架的pMRI图像重建研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于稀疏编码模型的深层学习神经网络

国家自然科学基金

7+阅读 · 2012年12月31日

类神经网络结构开放式电路电磁损伤故障自修复研究

国家自然科学基金

0+阅读 · 2012年12月31日

HCV基因组miR-122调节位点的靶向阻断及其机制研究

国家自然科学基金

0+阅读 · 2011年12月31日

适用于高丢包率无线网络环境的压缩感知-多描述编码方法及关键技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

模糊离散事件系统的监督控制与故障诊断研究

国家自然科学基金

0+阅读 · 2009年12月31日

Dependent Optics

Arxiv

0+阅读 · 2022年4月20日

Multimodal Token Fusion for Vision Transformers

Arxiv

3+阅读 · 2022年4月19日

Risk-Aware Learning for Scalable Voltage Optimization in Distribution Grids

Arxiv

0+阅读 · 2022年4月18日

Extracting Targeted Training Data from ASR Models, and How to Mitigate It

Arxiv

0+阅读 · 2022年4月18日

Visio-Linguistic Brain Encoding

Arxiv

0+阅读 · 2022年4月18日

DialAug: Mixing up Dialogue Contexts in Contrastive Learning for Robust Conversational Modeling

Arxiv

0+阅读 · 2022年4月15日

Masked Autoencoders Are Scalable Vision Learners

Arxiv

27+阅读 · 2021年11月11日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

Contrastive Clustering

Arxiv

31+阅读 · 2020年9月21日

Efficient Transformers: A Survey

Arxiv

23+阅读 · 2020年9月16日

VIP会员