ICLR 2022 | BEIT论文解读：将MLM无监督预训练应用到CV领域 - 专知VIP

会员服务 ·

13

ICLR 2022 · 无监督学习 · 预训练Transformer · 论文 ·

2022 年 3 月 24 日

ICLR 2022 | BEIT论文解读：将MLM无监督预训练应用到CV领域

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

今天跟大家聊一聊ICLR 2022微软亚研院的一篇工作BEIT: BERT Pre-Training of Image Transformers（ICLR 2022）。BEIT是一种图像无监督预训练，属于最近非常火的Vision Transformer这类工作的研究方向（Vision Transformer前沿工作详细汇总可以参考历史文章从ViT到Swin，10篇顶会论文看Transformer在CV领域的发展历程）。首先简单介绍一下这篇文章的整体思路：利用BERT中MLM（Masked Language Modeling）的思路，把一个图像转换成token序列，对图像token进行mask，然后预测被mask掉的图像token，实现图像领域的无监督预训练。

这个想法听起来跟BERT没有太大区别，但是想把这个思路成功应用到图像领域，并且取得效果，就不是那么容易了。接下来我们走进BEIT，看看这篇工作是如何实现将MLM预训练应用到图像领域的。我们首先介绍BEIT的原理，再对比BEIT和历史的Vision Transformer工作，如iGPT、ViT等，看看BEIT有哪些优越之处。

BEIT主要分为dVAE和基于Vision Transformer的MIM（Masked Image Modeling）两个部分。其中，dVAE用来实现将图像转换为图像token，Vision Transformer部分使用ViT作为backbone对图像进行编码，并对mask掉的图像token。BEIT整体的模型结构如下图所示。下面我们对模型结构进行详细介绍。

成为VIP会员查看完整内容

33

相关内容

ICLR 2022

ICLR 2022 放出了本届会议的论文接收结果：共有 54 篇 Oral（口头报告）论文和 176 篇 Spolight 论文，论文接收总数 1095 篇，最终投稿量 3391 篇，论文接收率 32.3%。

【NeurIPS 2021 】MST: 用于Transformer视觉表征的Masked自监督解读

【NeurIPS 2021 】MST: 用于Transformer视觉表征的Masked自监督解读

专知会员服务

42+阅读 · 2021年12月11日

何恺明最新论文！用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders

何恺明最新论文！用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders

专知会员服务

30+阅读 · 2021年11月13日

【Hinton新论文】语言建模目标检测Pix2seq

【Hinton新论文】语言建模目标检测Pix2seq

专知会员服务

26+阅读 · 2021年9月23日

【ICCV 2021 】Vision Transformer中的相对位置编码

专知会员服务

30+阅读 · 2021年7月30日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

Transformer替代CNN？8篇论文概述最新进展！

Transformer替代CNN？8篇论文概述最新进展！

专知会员服务

77+阅读 · 2021年1月19日

【CCF计算机视觉专委会】未来5-10年计算机视觉发展趋势，

专知会员服务

104+阅读 · 2020年5月20日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

70+阅读 · 2020年1月17日

五篇 ICCV 2019 的【图神经网络（GNN）+CV】相关论文

五篇 ICCV 2019 的【图神经网络（GNN）+CV】相关论文

专知会员服务

15+阅读 · 2020年1月9日

CVPR 2022 | 继何恺明的MAE后，MSRA提出更简单的掩码图像建模框架

CVPR 2022 | 继何恺明的MAE后，MSRA提出更简单的掩码图像建模框架

PaperWeekly

0+阅读 · 2022年4月18日

CV界六边形战士来了！字节提出iBOT连霸自监督榜单，入选顶会ICLR 2022

CV界六边形战士来了！字节提出iBOT连霸自监督榜单，入选顶会ICLR 2022

新智元

0+阅读 · 2022年2月16日

从顶会论文看多模态预训练研究进展

从顶会论文看多模态预训练研究进展

专知

3+阅读 · 2021年12月24日

BERT是图像预训练未来？字节跳动iBOT刷新十几项SOTA，部分指标超MAE

BERT是图像预训练未来？字节跳动iBOT刷新十几项SOTA，部分指标超MAE

机器之心

0+阅读 · 2021年11月17日

大道至简，何恺明新论文火了：Masked Autoencoders让计算机视觉通向大模型

大道至简，何恺明新论文火了：Masked Autoencoders让计算机视觉通向大模型

机器之心

0+阅读 · 2021年11月13日

Hinton团队CV新作：用语言建模做目标检测，性能媲美DETR

Hinton团队CV新作：用语言建模做目标检测，性能媲美DETR

机器之心

0+阅读 · 2021年9月26日

Transformers在计算机视觉概述

Transformers在计算机视觉概述

专知

3+阅读 · 2021年4月18日

何恺明一作，刷新7项检测分割任务，无监督预训练完胜有监督

何恺明一作，刷新7项检测分割任务，无监督预训练完胜有监督

机器之心

12+阅读 · 2019年11月15日

由浅及深，细致解读图像问答 VQA 2018 Challenge 冠军模型 Pythia

由浅及深，细致解读图像问答 VQA 2018 Challenge 冠军模型 Pythia

GAN生成式对抗网络

50+阅读 · 2019年3月13日

解析广泛应用于NLP的自注意力机制（附论文、源码）

解析广泛应用于NLP的自注意力机制（附论文、源码）

数据派THU

12+阅读 · 2018年4月3日

高斯序列与过程的极值理论

国家自然科学基金

2+阅读 · 2015年12月31日

反钙钛矿Mn3Ga1-xSixN1-yCy体系负热膨胀性质的第一性原理研究

国家自然科学基金

0+阅读 · 2015年12月31日

原子范数最小化问题的理论与算法研究

国家自然科学基金

2+阅读 · 2013年12月31日

CVD法生长二硫化钼原子层的微观机理研究

国家自然科学基金

0+阅读 · 2013年12月31日

并行子空间学习方法及其大规模图像识别应用研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于广义建模理论的多原子库图像编码方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于纳米金柱阵列结构的原子力显微镜探针针尖形貌盲重构

国家自然科学基金

0+阅读 · 2012年12月31日

通用无参考图像和视频质量评价方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

线性积分方程的Galerkin快速谱方法

国家自然科学基金

0+阅读 · 2009年12月31日

集群企业迁移行为及其对区域产业集群演进影响机制的实证研究

国家自然科学基金

0+阅读 · 2008年12月31日

Polling Latent Opinions: A Method for Computational Sociolinguistics Using Transformer Language Models

Polling Latent Opinions: A Method for Computational Sociolinguistics Using Transformer Language Models

Arxiv

0+阅读 · 2022年4月19日

Fourier Image Transformer

Arxiv

2+阅读 · 2022年4月19日

Low-Dose CT Denoising via Sinogram Inner-Structure Transformer

Low-Dose CT Denoising via Sinogram Inner-Structure Transformer

Arxiv

1+阅读 · 2022年4月18日

Visio-Linguistic Brain Encoding

Arxiv

0+阅读 · 2022年4月18日

SimMIM: A Simple Framework for Masked Image Modeling

Arxiv

1+阅读 · 2022年4月17日

Cross-Modal Coherence for Text-to-Image Retrieval

Arxiv

0+阅读 · 2022年4月15日

Transformers in Medical Image Analysis: A Review

Transformers in Medical Image Analysis: A Review

Arxiv

40+阅读 · 2022年2月24日

Masked Autoencoders Are Scalable Vision Learners

Arxiv

27+阅读 · 2021年11月11日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

XLNet: Generalized Autoregressive Pretraining for Language Understanding

Arxiv

14+阅读 · 2019年6月19日

VIP会员

相关主题

无监督学习

预训练Transformer

相关VIP内容

【NeurIPS 2021 】MST: 用于Transformer视觉表征的Masked自监督解读

【NeurIPS 2021 】MST: 用于Transformer视觉表征的Masked自监督解读

专知会员服务

42+阅读 · 2021年12月11日

何恺明最新论文！用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders

何恺明最新论文！用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders

专知会员服务

30+阅读 · 2021年11月13日

【Hinton新论文】语言建模目标检测Pix2seq

【Hinton新论文】语言建模目标检测Pix2seq

专知会员服务

26+阅读 · 2021年9月23日

【ICCV 2021 】Vision Transformer中的相对位置编码

专知会员服务

30+阅读 · 2021年7月30日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

Transformer替代CNN？8篇论文概述最新进展！

Transformer替代CNN？8篇论文概述最新进展！

专知会员服务

77+阅读 · 2021年1月19日

【CCF计算机视觉专委会】未来5-10年计算机视觉发展趋势，

专知会员服务

104+阅读 · 2020年5月20日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

70+阅读 · 2020年1月17日

五篇 ICCV 2019 的【图神经网络（GNN）+CV】相关论文

五篇 ICCV 2019 的【图神经网络（GNN）+CV】相关论文

专知会员服务

15+阅读 · 2020年1月9日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】低维与高维空间中潜在表征的分析、建模与变换

《生态建模密码破译：建模与编程实践》美陆军最新报告

大模型解决方案白皮书：社交陪伴场景全流程落地指南

面向具身操作的视觉-语言-动作模型综述

相关资讯

CVPR 2022 | 继何恺明的MAE后，MSRA提出更简单的掩码图像建模框架

CVPR 2022 | 继何恺明的MAE后，MSRA提出更简单的掩码图像建模框架

PaperWeekly

0+阅读 · 2022年4月18日

CV界六边形战士来了！字节提出iBOT连霸自监督榜单，入选顶会ICLR 2022

CV界六边形战士来了！字节提出iBOT连霸自监督榜单，入选顶会ICLR 2022

新智元

0+阅读 · 2022年2月16日

从顶会论文看多模态预训练研究进展

从顶会论文看多模态预训练研究进展

专知

3+阅读 · 2021年12月24日

BERT是图像预训练未来？字节跳动iBOT刷新十几项SOTA，部分指标超MAE

BERT是图像预训练未来？字节跳动iBOT刷新十几项SOTA，部分指标超MAE

机器之心

0+阅读 · 2021年11月17日

大道至简，何恺明新论文火了：Masked Autoencoders让计算机视觉通向大模型

大道至简，何恺明新论文火了：Masked Autoencoders让计算机视觉通向大模型

机器之心

0+阅读 · 2021年11月13日

Hinton团队CV新作：用语言建模做目标检测，性能媲美DETR

Hinton团队CV新作：用语言建模做目标检测，性能媲美DETR

机器之心

0+阅读 · 2021年9月26日

Transformers在计算机视觉概述

Transformers在计算机视觉概述

专知

3+阅读 · 2021年4月18日

何恺明一作，刷新7项检测分割任务，无监督预训练完胜有监督

何恺明一作，刷新7项检测分割任务，无监督预训练完胜有监督

机器之心

12+阅读 · 2019年11月15日

由浅及深，细致解读图像问答 VQA 2018 Challenge 冠军模型 Pythia

由浅及深，细致解读图像问答 VQA 2018 Challenge 冠军模型 Pythia

GAN生成式对抗网络

50+阅读 · 2019年3月13日

解析广泛应用于NLP的自注意力机制（附论文、源码）

解析广泛应用于NLP的自注意力机制（附论文、源码）

数据派THU

12+阅读 · 2018年4月3日

相关基金

高斯序列与过程的极值理论

国家自然科学基金

2+阅读 · 2015年12月31日

反钙钛矿Mn3Ga1-xSixN1-yCy体系负热膨胀性质的第一性原理研究

国家自然科学基金

0+阅读 · 2015年12月31日

原子范数最小化问题的理论与算法研究

国家自然科学基金

2+阅读 · 2013年12月31日

CVD法生长二硫化钼原子层的微观机理研究

国家自然科学基金

0+阅读 · 2013年12月31日

并行子空间学习方法及其大规模图像识别应用研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于广义建模理论的多原子库图像编码方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于纳米金柱阵列结构的原子力显微镜探针针尖形貌盲重构

国家自然科学基金

0+阅读 · 2012年12月31日

通用无参考图像和视频质量评价方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

线性积分方程的Galerkin快速谱方法

国家自然科学基金

0+阅读 · 2009年12月31日

集群企业迁移行为及其对区域产业集群演进影响机制的实证研究

国家自然科学基金

0+阅读 · 2008年12月31日

相关论文

Polling Latent Opinions: A Method for Computational Sociolinguistics Using Transformer Language Models

Polling Latent Opinions: A Method for Computational Sociolinguistics Using Transformer Language Models

Arxiv

0+阅读 · 2022年4月19日

Fourier Image Transformer

Arxiv

2+阅读 · 2022年4月19日

Low-Dose CT Denoising via Sinogram Inner-Structure Transformer

Low-Dose CT Denoising via Sinogram Inner-Structure Transformer

Arxiv

1+阅读 · 2022年4月18日

Visio-Linguistic Brain Encoding

Arxiv

0+阅读 · 2022年4月18日

SimMIM: A Simple Framework for Masked Image Modeling

Arxiv

1+阅读 · 2022年4月17日

Cross-Modal Coherence for Text-to-Image Retrieval

Arxiv

0+阅读 · 2022年4月15日

Transformers in Medical Image Analysis: A Review

Transformers in Medical Image Analysis: A Review

Arxiv

40+阅读 · 2022年2月24日

Masked Autoencoders Are Scalable Vision Learners

Arxiv

27+阅读 · 2021年11月11日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

XLNet: Generalized Autoregressive Pretraining for Language Understanding

Arxiv

14+阅读 · 2019年6月19日

微信扫码咨询专知VIP会员