何恺明最新一作论文 Masked Autoencoders(MAE)为自监督学习方法带来了一场革命,自提出以来,在 AI 领域内得到了极大的关注。MAE 不仅在图像预训练上达到了 SOTA 性能,更是一个里程碑式的桥梁,架通了之前 vision domain 和 language domain 在基于 masked autoencoder 的预训练差异。MAE 的成功在原论文里被解释为得益于 MAE 内部隐空间里的强大表达能力—“We hypothesize that this behavior occurs by way of a rich hidden representation inside the MAE”。
令人遗憾的是 MAE 原论文里没有提供理论解释。某问答平台上“如何看待何恺明最新一作论文 Masked Autoencoders?”的帖子已有三千多关注者和 140 多万浏览量,但是大家目前还没有讨论出 MAE 背后的数学原理和理论解释是什么。
本周,有一篇重磅论文“How to Understand Masked Autoencoders”就为 MAE 提供了一种理论解释框架,并带有数学证明。这篇论文应该是截止目前,第一篇为 MAE 提出理论解释的论文。
How to Understand Masked Autoencoders
论文链接:
https://arxiv.org/abs/2202.03670
这篇论文使用了积分方程与算子理论的思想,为 MAE 模型提供了一套理论分析的框架,在这个框架内对 MAE 模型的构成和训练提出了 5 个关键(甚至是“反直觉”的)问题,并通过数学证明的方式给出了回答:
Q1. MAE 模型内部的表示空间是如何构成和优化的?它的表示空间是如何在 Transformer 内部跨层传播的?
Q2. MAE 对输入图像采用了分片化处理,这样做为什么有助于 MAE 模型的训练?
Q3. 为什么 MAE 内部低层和高层输出的特征表示之间没有明显的差异?
Q5. MAE 对每个 masked patch 的重建只是参考其最相近的未被遮盖 patch 进行推断的吗?
这五个关键问题非常吸引人,比如 Q4 和 Q5 就是非常“反直觉”的,作者在论文中给出了详细的数学推导和分析,读起来觉得有理有据非常扎实。
属实说,MAE 的巨大成功至少让单模态的自监督学习进入了一个特殊的历史节点,面对 MAE 的成功,广大学者们一时间还找不到该从哪些角度切入来对 MAE 进行理论解释。非常感谢这篇满是数学干货的论文“How to Understand Masked Autoencoders”为整个自监督学习社区对 MAE 的研究带来了突破性的思路!
Section 3: Patch is All We Need?
Section 4: Attention in MAE: a Kernel Perspective
Section 5: Stable Representation Propagation in the Attention Block
Section 6: MAE Decoder: Low-Rank Reconstruction Through Global Interpolation
感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧