如何从数学角度解释何恺明新作Masked Autoencoders (MAE)？ - 专知

会员服务 ·

0

如何从数学角度解释何恺明新作Masked Autoencoders (MAE)？

2022 年 2 月 16 日 PaperWeekly

何恺明最新一作论文 Masked Autoencoders（MAE）为自监督学习方法带来了一场革命，自提出以来，在 AI 领域内得到了极大的关注。MAE 不仅在图像预训练上达到了 SOTA 性能，更是一个里程碑式的桥梁，架通了之前 vision domain 和 language domain 在基于 masked autoencoder 的预训练差异。MAE 的成功在原论文里被解释为得益于 MAE 内部隐空间里的强大表达能力—“We hypothesize that this behavior occurs by way of a rich hidden representation inside the MAE”。

令人遗憾的是 MAE 原论文里没有提供理论解释。某问答平台上“如何看待何恺明最新一作论文 Masked Autoencoders？”的帖子已有三千多关注者和 140 多万浏览量，但是大家目前还没有讨论出 MAE 背后的数学原理和理论解释是什么。

本周，有一篇重磅论文“How to Understand Masked Autoencoders”就为 MAE 提供了一种理论解释框架，并带有数学证明。这篇论文应该是截止目前，第一篇为 MAE 提出理论解释的论文。

论文标题：

How to Understand Masked Autoencoders

论文链接：

https://arxiv.org/abs/2202.03670

这篇论文使用了积分方程与算子理论的思想，为 MAE 模型提供了一套理论分析的框架，在这个框架内对 MAE 模型的构成和训练提出了 5 个关键（甚至是“反直觉”的）问题，并通过数学证明的方式给出了回答:

Q1. MAE 模型内部的表示空间是如何构成和优化的？它的表示空间是如何在 Transformer 内部跨层传播的？

Q2. MAE 对输入图像采用了分片化处理，这样做为什么有助于 MAE 模型的训练？

Q3. 为什么 MAE 内部低层和高层输出的特征表示之间没有明显的差异？

Q4. MAE 的解码器部分对它不重要吗？

Q5. MAE 对每个 masked patch 的重建只是参考其最相近的未被遮盖 patch 进行推断的吗？

这五个关键问题非常吸引人，比如 Q4 和 Q5 就是非常“反直觉”的，作者在论文中给出了详细的数学推导和分析，读起来觉得有理有据非常扎实。

属实说，MAE 的巨大成功至少让单模态的自监督学习进入了一个特殊的历史节点，面对 MAE 的成功，广大学者们一时间还找不到该从哪些角度切入来对 MAE 进行理论解释。非常感谢这篇满是数学干货的论文“How to Understand Masked Autoencoders”为整个自监督学习社区对 MAE 的研究带来了突破性的思路！

具体数学推导请参看原文，全文的主体章节包括：

Section 3: Patch is All We Need?

Section 4: Attention in MAE: a Kernel Perspective

Section 5: Stable Representation Propagation in the Attention Block

Section 6: MAE Decoder: Low-Rank Reconstruction Through Global Interpolation

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

登录查看更多

3

相关内容

掩码自编码MAE

掩码自编码MAE

掩码自编码MAE

ICLR 2022 | BEIT论文解读：将MLM无监督预训练应用到CV领域

ICLR 2022 | BEIT论文解读：将MLM无监督预训练应用到CV领域

专知会员服务

33+阅读 · 2022年3月24日

【NeurIPS 2021 】MST: 用于Transformer视觉表征的Masked自监督解读

【NeurIPS 2021 】MST: 用于Transformer视觉表征的Masked自监督解读

专知会员服务

42+阅读 · 2021年12月11日

何恺明最新论文！用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders

何恺明最新论文！用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders

专知会员服务

30+阅读 · 2021年11月13日

何恺明团队新论文！自监督学习+Transformer=MoCoV3，解决训练不稳定性

专知会员服务

37+阅读 · 2021年4月7日

“内卷“算子超越卷积、自注意力机制：CVPR2021强大的神经网络新算子involution

专知会员服务

28+阅读 · 2021年3月27日

中国AI语音识别市场研究报告（附PDF下载）

中国AI语音识别市场研究报告（附PDF下载）

专知会员服务

78+阅读 · 2020年12月30日

【Contextual Embedding】什么时候上下文嵌入值得使用?

【Contextual Embedding】什么时候上下文嵌入值得使用?

专知会员服务

16+阅读 · 2020年8月2日

【Hinton新论文】SimCLRv2来了！提出蒸馏新思路，可迁移至小模型，性能精度超越有监督

【Hinton新论文】SimCLRv2来了！提出蒸馏新思路，可迁移至小模型，性能精度超越有监督

专知会员服务

41+阅读 · 2020年7月21日

Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新ImageNet准确率

Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新ImageNet准确率

专知会员服务

36+阅读 · 2020年3月11日

【重磅】符号数学下的深度学习-Deep Learning for Symbolic Mathematics

【重磅】符号数学下的深度学习-Deep Learning for Symbolic Mathematics

专知会员服务

32+阅读 · 2019年12月2日

CVPR 2022 | 继何恺明的MAE后，MSRA提出更简单的掩码图像建模框架

CVPR 2022 | 继何恺明的MAE后，MSRA提出更简单的掩码图像建模框架

PaperWeekly

0+阅读 · 2022年4月18日

何恺明一作MAE收录CVPR 2022 Oral！高达87.8%准确率！自监督领域新代表作

何恺明一作MAE收录CVPR 2022 Oral！高达87.8%准确率！自监督领域新代表作

CVer

0+阅读 · 2022年4月12日

ICLR 2022 | BEIT论文解读：将MLM无监督预训练应用到CV领域

ICLR 2022 | BEIT论文解读：将MLM无监督预训练应用到CV领域

专知

1+阅读 · 2022年3月24日

FAIR新作MaskFeat：自监督视觉预训练新方法！部分超越何恺明MAE！灵感竟来自16年前CVPR论文

FAIR新作MaskFeat：自监督视觉预训练新方法！部分超越何恺明MAE！灵感竟来自16年前CVPR论文

CVer

0+阅读 · 2021年12月21日

北大美女学霸力压大神何恺明新作MAE！怒摘12个SOTA，灵感竟来自16年前CVPR论文

北大美女学霸力压大神何恺明新作MAE！怒摘12个SOTA，灵感竟来自16年前CVPR论文

新智元

0+阅读 · 2021年12月20日

深度了解自监督学习，就看这篇解读！何恺明新作MAE：通向CV大模型

深度了解自监督学习，就看这篇解读！何恺明新作MAE：通向CV大模型

极市平台

0+阅读 · 2021年11月21日

大道至简 | 何恺明让计算机视觉通向大模型！

大道至简 | 何恺明让计算机视觉通向大模型！

机器学习与推荐算法

2+阅读 · 2021年11月15日

CV大神何恺明最新一作：视觉预训练新范式MAE！下一个CV大模型要来？

CV大神何恺明最新一作：视觉预训练新范式MAE！下一个CV大模型要来？

新智元

3+阅读 · 2021年11月13日

大道至简，何恺明新论文火了：Masked Autoencoders让计算机视觉通向大模型

大道至简，何恺明新论文火了：Masked Autoencoders让计算机视觉通向大模型

机器之心

0+阅读 · 2021年11月13日

何恺明最新工作：简单实用的自监督学习方案MAE，ImageNet-1K 87.8%！

何恺明最新工作：简单实用的自监督学习方案MAE，ImageNet-1K 87.8%！

极市平台

1+阅读 · 2021年11月12日

贝叶斯网分解理论及其应用

国家自然科学基金

13+阅读 · 2017年12月31日

视觉媒体的结构感知处理与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

非光滑非凸优化问题的交替线性化算法及其应用

国家自然科学基金

6+阅读 · 2015年12月31日

原子范数最小化问题的理论与算法研究

国家自然科学基金

2+阅读 · 2013年12月31日

我国政府制度性资源对IT中小企业创新影响：基于效果逻辑理论的多阶段视角

国家自然科学基金

0+阅读 · 2013年12月31日

高分辨率SAR图像目标认知模型及高效算法

国家自然科学基金

3+阅读 · 2013年12月31日

柔性结构全场振动测试机理及参数精细化研究

国家自然科学基金

0+阅读 · 2013年12月31日

结构数学在20世纪的发展

国家自然科学基金

1+阅读 · 2012年12月31日

张量的高阶奇异值分解基础理论研究及其应用

国家自然科学基金

0+阅读 · 2011年12月31日

插值型多小波框架及其在信号稀疏表示中的应用

国家自然科学基金

0+阅读 · 2011年12月31日

Not All Tokens Are Equal: Human-centric Visual Analysis via Token Clustering Transformer

Arxiv

0+阅读 · 2022年4月20日

An Efficient Algorithm for the Proximity Connected Two Center Problem

Arxiv

0+阅读 · 2022年4月19日

DecBERT: Enhancing the Language Understanding of BERT with Causal Attention Masks

Arxiv

0+阅读 · 2022年4月19日

Extracting Targeted Training Data from ASR Models, and How to Mitigate It

Extracting Targeted Training Data from ASR Models, and How to Mitigate It

Arxiv

0+阅读 · 2022年4月18日

The Devil is in the Frequency: Geminated Gestalt Autoencoder for Self-Supervised Visual Pre-Training

Arxiv

0+阅读 · 2022年4月18日

Polling Latent Opinions: A Method for Computational Sociolinguistics Using Transformer Language Models

Polling Latent Opinions: A Method for Computational Sociolinguistics Using Transformer Language Models

Arxiv

0+阅读 · 2022年4月15日

Masked Autoencoders Are Scalable Vision Learners

Arxiv

27+阅读 · 2021年11月11日

Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing

Arxiv

30+阅读 · 2021年7月28日

A Survey of the State of Explainable AI for Natural Language Processing

Arxiv

26+阅读 · 2020年10月1日

Contrastive Clustering

Arxiv

31+阅读 · 2020年9月21日

VIP会员

相关主题

掩码自编码MAE

自监督学习

相关VIP内容

ICLR 2022 | BEIT论文解读：将MLM无监督预训练应用到CV领域

ICLR 2022 | BEIT论文解读：将MLM无监督预训练应用到CV领域

专知会员服务

33+阅读 · 2022年3月24日

【NeurIPS 2021 】MST: 用于Transformer视觉表征的Masked自监督解读

【NeurIPS 2021 】MST: 用于Transformer视觉表征的Masked自监督解读

专知会员服务

42+阅读 · 2021年12月11日

何恺明最新论文！用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders

何恺明最新论文！用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders

专知会员服务

30+阅读 · 2021年11月13日

何恺明团队新论文！自监督学习+Transformer=MoCoV3，解决训练不稳定性

专知会员服务

37+阅读 · 2021年4月7日

“内卷“算子超越卷积、自注意力机制：CVPR2021强大的神经网络新算子involution

专知会员服务

28+阅读 · 2021年3月27日

中国AI语音识别市场研究报告（附PDF下载）

中国AI语音识别市场研究报告（附PDF下载）

专知会员服务

78+阅读 · 2020年12月30日

【Contextual Embedding】什么时候上下文嵌入值得使用?

【Contextual Embedding】什么时候上下文嵌入值得使用?

专知会员服务

16+阅读 · 2020年8月2日

【Hinton新论文】SimCLRv2来了！提出蒸馏新思路，可迁移至小模型，性能精度超越有监督

【Hinton新论文】SimCLRv2来了！提出蒸馏新思路，可迁移至小模型，性能精度超越有监督

专知会员服务

41+阅读 · 2020年7月21日

Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新ImageNet准确率

Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新ImageNet准确率

专知会员服务

36+阅读 · 2020年3月11日

【重磅】符号数学下的深度学习-Deep Learning for Symbolic Mathematics

【重磅】符号数学下的深度学习-Deep Learning for Symbolic Mathematics

专知会员服务

32+阅读 · 2019年12月2日

热门VIP内容

开通专知VIP会员享更多权益服务

新书册《几何深度学习的数学基础》

中程单向攻击无人机的战略意义：俄乌战争启示

在无标注条件下适配视觉—语言模型：全面综述

面向视觉语言模型的持续学习：遗忘之外的综述与分类体系

相关资讯

CVPR 2022 | 继何恺明的MAE后，MSRA提出更简单的掩码图像建模框架

CVPR 2022 | 继何恺明的MAE后，MSRA提出更简单的掩码图像建模框架

PaperWeekly

0+阅读 · 2022年4月18日

何恺明一作MAE收录CVPR 2022 Oral！高达87.8%准确率！自监督领域新代表作

何恺明一作MAE收录CVPR 2022 Oral！高达87.8%准确率！自监督领域新代表作

CVer

0+阅读 · 2022年4月12日

ICLR 2022 | BEIT论文解读：将MLM无监督预训练应用到CV领域

ICLR 2022 | BEIT论文解读：将MLM无监督预训练应用到CV领域

专知

1+阅读 · 2022年3月24日

FAIR新作MaskFeat：自监督视觉预训练新方法！部分超越何恺明MAE！灵感竟来自16年前CVPR论文

FAIR新作MaskFeat：自监督视觉预训练新方法！部分超越何恺明MAE！灵感竟来自16年前CVPR论文

CVer

0+阅读 · 2021年12月21日

北大美女学霸力压大神何恺明新作MAE！怒摘12个SOTA，灵感竟来自16年前CVPR论文

北大美女学霸力压大神何恺明新作MAE！怒摘12个SOTA，灵感竟来自16年前CVPR论文

新智元

0+阅读 · 2021年12月20日

深度了解自监督学习，就看这篇解读！何恺明新作MAE：通向CV大模型

深度了解自监督学习，就看这篇解读！何恺明新作MAE：通向CV大模型

极市平台

0+阅读 · 2021年11月21日

大道至简 | 何恺明让计算机视觉通向大模型！

大道至简 | 何恺明让计算机视觉通向大模型！

机器学习与推荐算法

2+阅读 · 2021年11月15日

CV大神何恺明最新一作：视觉预训练新范式MAE！下一个CV大模型要来？

CV大神何恺明最新一作：视觉预训练新范式MAE！下一个CV大模型要来？

新智元

3+阅读 · 2021年11月13日

大道至简，何恺明新论文火了：Masked Autoencoders让计算机视觉通向大模型

大道至简，何恺明新论文火了：Masked Autoencoders让计算机视觉通向大模型

机器之心

0+阅读 · 2021年11月13日

何恺明最新工作：简单实用的自监督学习方案MAE，ImageNet-1K 87.8%！

何恺明最新工作：简单实用的自监督学习方案MAE，ImageNet-1K 87.8%！

极市平台

1+阅读 · 2021年11月12日

相关基金

贝叶斯网分解理论及其应用

国家自然科学基金

13+阅读 · 2017年12月31日

视觉媒体的结构感知处理与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

非光滑非凸优化问题的交替线性化算法及其应用

国家自然科学基金

6+阅读 · 2015年12月31日

原子范数最小化问题的理论与算法研究

国家自然科学基金

2+阅读 · 2013年12月31日

我国政府制度性资源对IT中小企业创新影响：基于效果逻辑理论的多阶段视角

国家自然科学基金

0+阅读 · 2013年12月31日

高分辨率SAR图像目标认知模型及高效算法

国家自然科学基金

3+阅读 · 2013年12月31日

柔性结构全场振动测试机理及参数精细化研究

国家自然科学基金

0+阅读 · 2013年12月31日

结构数学在20世纪的发展

国家自然科学基金

1+阅读 · 2012年12月31日

张量的高阶奇异值分解基础理论研究及其应用

国家自然科学基金

0+阅读 · 2011年12月31日

插值型多小波框架及其在信号稀疏表示中的应用

国家自然科学基金

0+阅读 · 2011年12月31日

相关论文

Not All Tokens Are Equal: Human-centric Visual Analysis via Token Clustering Transformer

Arxiv

0+阅读 · 2022年4月20日

An Efficient Algorithm for the Proximity Connected Two Center Problem

Arxiv

0+阅读 · 2022年4月19日

DecBERT: Enhancing the Language Understanding of BERT with Causal Attention Masks

Arxiv

0+阅读 · 2022年4月19日

Extracting Targeted Training Data from ASR Models, and How to Mitigate It

Extracting Targeted Training Data from ASR Models, and How to Mitigate It

Arxiv

0+阅读 · 2022年4月18日

The Devil is in the Frequency: Geminated Gestalt Autoencoder for Self-Supervised Visual Pre-Training

Arxiv

0+阅读 · 2022年4月18日

Polling Latent Opinions: A Method for Computational Sociolinguistics Using Transformer Language Models

Polling Latent Opinions: A Method for Computational Sociolinguistics Using Transformer Language Models

Arxiv

0+阅读 · 2022年4月15日

Masked Autoencoders Are Scalable Vision Learners

Arxiv

27+阅读 · 2021年11月11日

Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing

Arxiv

30+阅读 · 2021年7月28日

A Survey of the State of Explainable AI for Natural Language Processing

Arxiv

26+阅读 · 2020年10月1日

Contrastive Clustering

Arxiv

31+阅读 · 2020年9月21日

大家都在搜

国防科技创新

大型语言模型

无人机集群

软件无线电

久别重逢话双塔

论文浅尝 - ICLR2020 | 通过神经逻辑归纳学习有效地解释

微信扫码咨询专知VIP会员