如何从数学角度解释何恺明新作Masked Autoencoders (MAE)?

2022 年 2 月 16 日 PaperWeekly


何恺明最新一作论文 Masked Autoencoders(MAE)为自监督学习方法带来了一场革命,自提出以来,在 AI 领域内得到了极大的关注。MAE 不仅在图像预训练上达到了 SOTA 性能,更是一个里程碑式的桥梁,架通了之前 vision domain 和 language domain 在基于 masked autoencoder 的预训练差异。MAE 的成功在原论文里被解释为得益于 MAE 内部隐空间里的强大表达能力—“We hypothesize that this behavior occurs by way of a rich hidden representation inside the MAE”。

令人遗憾的是 MAE 原论文里没有提供理论解释。某问答平台上“如何看待何恺明最新一作论文 Masked Autoencoders?”的帖子已有三千多关注者和 140 多万浏览量,但是大家目前还没有讨论出 MAE 背后的数学原理和理论解释是什么。
 
本周,有一篇重磅论文“How to Understand Masked Autoencoders”就为 MAE 提供了一种理论解释框架,并带有数学证明。这篇论文应该是截止目前,第一篇为 MAE 提出理论解释的论文。



论文标题:
How to Understand Masked Autoencoders

论文链接:

https://arxiv.org/abs/2202.03670

这篇论文使用了积分方程与算子理论的思想,为 MAE 模型提供了一套理论分析的框架,在这个框架内对 MAE 模型的构成和训练提出了 5 个关键(甚至是“反直觉”的)问题,并通过数学证明的方式给出了回答:
 
Q1. MAE 模型内部的表示空间是如何构成和优化的?它的表示空间是如何在 Transformer 内部跨层传播的?

Q2. MAE 对输入图像采用了分片化处理,这样做为什么有助于 MAE 模型的训练?

Q3. 为什么 MAE 内部低层和高层输出的特征表示之间没有明显的差异?

Q4. MAE 的解码器部分对它不重要吗?
 
Q5. MAE 对每个 masked patch 的重建只是参考其最相近的未被遮盖 patch 进行推断的吗?

这五个关键问题非常吸引人,比如 Q4 和 Q5 就是非常“反直觉”的,作者在论文中给出了详细的数学推导和分析,读起来觉得有理有据非常扎实。

属实说,MAE 的巨大成功至少让单模态的自监督学习进入了一个特殊的历史节点,面对 MAE 的成功,广大学者们一时间还找不到该从哪些角度切入来对 MAE 进行理论解释。非常感谢这篇满是数学干货的论文“How to Understand Masked Autoencoders”为整个自监督学习社区对 MAE 的研究带来了突破性的思路!
 
具体数学推导请参看原文, 全文的主体章节包括:

Section 3: Patch is All We Need?

Section 4: Attention in MAE: a Kernel Perspective

Section 5: Stable Representation Propagation in the Attention Block

Section 6: MAE Decoder: Low-Rank Reconstruction Through Global Interpolation




特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

 

更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·

登录查看更多
3

相关内容

掩码自编码MAE
ICLR 2022 | BEIT论文解读:将MLM无监督预训练应用到CV领域
专知会员服务
32+阅读 · 2022年3月24日
中国AI语音识别市场研究报告(附PDF下载)
专知会员服务
73+阅读 · 2020年12月30日
【Contextual Embedding】什么时候上下文嵌入值得使用?
专知会员服务
15+阅读 · 2020年8月2日
大道至简 | 何恺明让计算机视觉通向大模型!
机器学习与推荐算法
1+阅读 · 2021年11月15日
国家自然科学基金
10+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
27+阅读 · 2021年11月11日
Arxiv
31+阅读 · 2020年9月21日
VIP会员
相关基金
国家自然科学基金
10+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员