【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners - 专知VIP

会员服务 ·

13

掩码自编码MAE · 视频分析 ·

2022 年 5 月 19 日

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

本文研究了一种概念简单的掩码自编码器(MAE)扩展到视频的时空表示学习。我们随机屏蔽视频中的时空块，并学习自动编码器以像素重建它们。有趣的是，我们的MAE方法可以在几乎没有时空诱导偏差的情况下学习强表示(只有补丁和位置嵌入除外)，而时空无关的随机掩蔽性能最好。我们观察到最优掩蔽比高达90%(图像上为75%)，支持了该比例与数据信息冗余有关的假设。高掩蔽比导致大的加速，例如，在挂钟时间> 4x甚至更多。我们使用vanilla 视觉Transformers报告了几个具有挑战性的视频数据集的实验结果。我们观察到，MAE可以大大超过监督预训练的表现。我们进一步报告了在真实世界、未经整理的Instagram数据上训练的令人鼓舞的结果。我们的研究表明，掩码自编码的一般框架(BERT、MAE等)可以成为一个统一的方法，以最小的领域知识进行表示学习。

成为VIP会员查看完整内容

39

相关内容

掩码自编码MAE

掩码自编码MAE

掩码自编码MAE

【KDD2022】GraphMAE:自监督掩码图自编码器

【KDD2022】GraphMAE:自监督掩码图自编码器

专知会员服务

23+阅读 · 2022年6月12日

【ICLR 2022】MIT论文解读：谈到人工智能，我们可以抛弃数据集吗？基于ML创建合成数据，Generative Models As A Data Source For Multiview Representation Learning

【ICLR 2022】MIT论文解读：谈到人工智能，我们可以抛弃数据集吗？基于ML创建合成数据，Generative Models As A Data Source For Multiview Representation Learning

专知会员服务

41+阅读 · 2022年3月15日

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

专知会员服务

32+阅读 · 2022年3月12日

【ICLR2022】Transformers亦能贝叶斯推断

【ICLR2022】Transformers亦能贝叶斯推断

专知会员服务

25+阅读 · 2021年12月23日

【NeurIPS 2021 】MST: 用于Transformer视觉表征的Masked自监督解读

【NeurIPS 2021 】MST: 用于Transformer视觉表征的Masked自监督解读

专知会员服务

42+阅读 · 2021年12月11日

何恺明最新论文！用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders

何恺明最新论文！用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders

专知会员服务

30+阅读 · 2021年11月13日

【ICML2021】基于早期特征重建的无监督嵌入自适应少样本分类

专知会员服务

21+阅读 · 2021年6月23日

SiT: 自监督视觉Transformer

专知会员服务

65+阅读 · 2021年4月11日

【伯克利】自回归模型的局部掩卷积，Locally Masked Convolution for Autoregressive Models

【伯克利】自回归模型的局部掩卷积，Locally Masked Convolution for Autoregressive Models

专知会员服务

20+阅读 · 2020年6月23日

【表示学习(Representation Learning)】8篇 NeurIPS 2019论文选读

专知会员服务

54+阅读 · 2019年12月22日

CVPR 2022 | 视频Transformer自监督预训练新范式！复旦&微软提出BEVT：实现视频识别新SOTA

CVPR 2022 | 视频Transformer自监督预训练新范式！复旦&微软提出BEVT：实现视频识别新SOTA

CVer

0+阅读 · 2022年4月25日

CVPR 2022 | 继何恺明的MAE后，MSRA提出更简单的掩码图像建模框架

CVPR 2022 | 继何恺明的MAE后，MSRA提出更简单的掩码图像建模框架

PaperWeekly

0+阅读 · 2022年4月18日

MAE同期工作！MSRA新作SimMIM收录CVPR 2022！高达87.1%准确率！掩码图像建模新框架

MAE同期工作！MSRA新作SimMIM收录CVPR 2022！高达87.1%准确率！掩码图像建模新框架

CVer

1+阅读 · 2022年4月14日

CVPR 2022 | 清华提出Point-BERT: 基于掩码建模的点云自注意力模型预训练

CVPR 2022 | 清华提出Point-BERT: 基于掩码建模的点云自注意力模型预训练

CVer

2+阅读 · 2022年3月21日

如何从数学角度解释何恺明新作Masked Autoencoders (MAE)？

如何从数学角度解释何恺明新作Masked Autoencoders (MAE)？

PaperWeekly

3+阅读 · 2022年2月16日

比MAE更强，FAIR新方法MaskFeat用HOG刷新多个SOTA

比MAE更强，FAIR新方法MaskFeat用HOG刷新多个SOTA

机器之心

0+阅读 · 2022年1月6日

【ICLR2022】Transformers亦能贝叶斯推断

【ICLR2022】Transformers亦能贝叶斯推断

专知

0+阅读 · 2021年12月23日

何恺明时隔2年再发一作论文：为视觉大模型开路，“CVPR 2022最佳论文候选预定”

何恺明时隔2年再发一作论文：为视觉大模型开路，“CVPR 2022最佳论文候选预定”

量子位

0+阅读 · 2021年11月13日

CV大神何恺明最新一作：视觉预训练新范式MAE！下一个CV大模型要来？

CV大神何恺明最新一作：视觉预训练新范式MAE！下一个CV大模型要来？

新智元

3+阅读 · 2021年11月13日

大道至简，何恺明新论文火了：Masked Autoencoders让计算机视觉通向大模型

大道至简，何恺明新论文火了：Masked Autoencoders让计算机视觉通向大模型

机器之心

0+阅读 · 2021年11月13日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

microRNA与新生鼠缺氧缺血脑损伤的细胞自噬调控

国家自然科学基金

0+阅读 · 2013年12月31日

高维空间径向基函数拟插值算子构造方法及其应用

国家自然科学基金

0+阅读 · 2013年12月31日

带跳扩散模型的非参数统计推断研究

国家自然科学基金

0+阅读 · 2013年12月31日

多视点视频自适应压缩感知与并行多级预测重构研究

国家自然科学基金

0+阅读 · 2013年12月31日

大规模数据的个性化分类学习

国家自然科学基金

1+阅读 · 2012年12月31日

突发事件网络舆情演变过程中的人群仿真研究

国家自然科学基金

0+阅读 · 2012年12月31日

激活成纤维细胞改善移植胰岛的再血管化

国家自然科学基金

0+阅读 · 2009年12月31日

基于小目标探测的高分辨率遥感影像交通参数提取研究

国家自然科学基金

1+阅读 · 2008年12月31日

核因子-kappaB对唐氏综合征关键区域蛋白RCAN1异构体4的转录调节异常参与了阿尔茨海默病的发生

国家自然科学基金

0+阅读 · 2008年12月31日

VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training

Arxiv

0+阅读 · 2022年7月7日

MaiT: Leverage Attention Masks for More Efficient Image Transformers

Arxiv

0+阅读 · 2022年7月6日

Some results on locally repairable codes with minimum distance $7$ and locality $2$

Arxiv

0+阅读 · 2022年7月6日

Towards Better Understanding of Self-Supervised Representations

Arxiv

0+阅读 · 2022年7月6日

Self-supervised Detransformation Autoencoder for Representation Learning in Open Set Recognition

Arxiv

0+阅读 · 2022年7月6日

Masked Autoencoders Are Scalable Vision Learners

Arxiv

27+阅读 · 2021年11月11日

A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning

Arxiv

11+阅读 · 2021年4月29日

CausalVAE: Disentangled Representation Learning via Neural Structural Causal Models

Arxiv

17+阅读 · 2021年3月23日

3D Hand Shape and Pose Estimation from a Single RGB Image

3D Hand Shape and Pose Estimation from a Single RGB Image

Arxiv

17+阅读 · 2019年3月3日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

VIP会员

相关主题

掩码自编码MAE

相关VIP内容

【KDD2022】GraphMAE:自监督掩码图自编码器

【KDD2022】GraphMAE:自监督掩码图自编码器

专知会员服务

23+阅读 · 2022年6月12日

【ICLR 2022】MIT论文解读：谈到人工智能，我们可以抛弃数据集吗？基于ML创建合成数据，Generative Models As A Data Source For Multiview Representation Learning

【ICLR 2022】MIT论文解读：谈到人工智能，我们可以抛弃数据集吗？基于ML创建合成数据，Generative Models As A Data Source For Multiview Representation Learning

专知会员服务

41+阅读 · 2022年3月15日

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

专知会员服务

32+阅读 · 2022年3月12日

【ICLR2022】Transformers亦能贝叶斯推断

【ICLR2022】Transformers亦能贝叶斯推断

专知会员服务

25+阅读 · 2021年12月23日

【NeurIPS 2021 】MST: 用于Transformer视觉表征的Masked自监督解读

【NeurIPS 2021 】MST: 用于Transformer视觉表征的Masked自监督解读

专知会员服务

42+阅读 · 2021年12月11日

何恺明最新论文！用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders

何恺明最新论文！用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders

专知会员服务

30+阅读 · 2021年11月13日

【ICML2021】基于早期特征重建的无监督嵌入自适应少样本分类

专知会员服务

21+阅读 · 2021年6月23日

SiT: 自监督视觉Transformer

专知会员服务

65+阅读 · 2021年4月11日

【伯克利】自回归模型的局部掩卷积，Locally Masked Convolution for Autoregressive Models

【伯克利】自回归模型的局部掩卷积，Locally Masked Convolution for Autoregressive Models

专知会员服务

20+阅读 · 2020年6月23日

【表示学习(Representation Learning)】8篇 NeurIPS 2019论文选读

专知会员服务

54+阅读 · 2019年12月22日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】扩展可扩展会话推荐的边界

别想太多：高效 R1 风格大型推理模型综述

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应

智能体网络：用AI智能体编织下一代网络

相关资讯

CVPR 2022 | 视频Transformer自监督预训练新范式！复旦&微软提出BEVT：实现视频识别新SOTA

CVPR 2022 | 视频Transformer自监督预训练新范式！复旦&微软提出BEVT：实现视频识别新SOTA

CVer

0+阅读 · 2022年4月25日

CVPR 2022 | 继何恺明的MAE后，MSRA提出更简单的掩码图像建模框架

CVPR 2022 | 继何恺明的MAE后，MSRA提出更简单的掩码图像建模框架

PaperWeekly

0+阅读 · 2022年4月18日

MAE同期工作！MSRA新作SimMIM收录CVPR 2022！高达87.1%准确率！掩码图像建模新框架

MAE同期工作！MSRA新作SimMIM收录CVPR 2022！高达87.1%准确率！掩码图像建模新框架

CVer

1+阅读 · 2022年4月14日

CVPR 2022 | 清华提出Point-BERT: 基于掩码建模的点云自注意力模型预训练

CVPR 2022 | 清华提出Point-BERT: 基于掩码建模的点云自注意力模型预训练

CVer

2+阅读 · 2022年3月21日

如何从数学角度解释何恺明新作Masked Autoencoders (MAE)？

如何从数学角度解释何恺明新作Masked Autoencoders (MAE)？

PaperWeekly

3+阅读 · 2022年2月16日

比MAE更强，FAIR新方法MaskFeat用HOG刷新多个SOTA

比MAE更强，FAIR新方法MaskFeat用HOG刷新多个SOTA

机器之心

0+阅读 · 2022年1月6日

【ICLR2022】Transformers亦能贝叶斯推断

【ICLR2022】Transformers亦能贝叶斯推断

专知

0+阅读 · 2021年12月23日

何恺明时隔2年再发一作论文：为视觉大模型开路，“CVPR 2022最佳论文候选预定”

何恺明时隔2年再发一作论文：为视觉大模型开路，“CVPR 2022最佳论文候选预定”

量子位

0+阅读 · 2021年11月13日

CV大神何恺明最新一作：视觉预训练新范式MAE！下一个CV大模型要来？

CV大神何恺明最新一作：视觉预训练新范式MAE！下一个CV大模型要来？

新智元

3+阅读 · 2021年11月13日

大道至简，何恺明新论文火了：Masked Autoencoders让计算机视觉通向大模型

大道至简，何恺明新论文火了：Masked Autoencoders让计算机视觉通向大模型

机器之心

0+阅读 · 2021年11月13日

相关基金

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

microRNA与新生鼠缺氧缺血脑损伤的细胞自噬调控

国家自然科学基金

0+阅读 · 2013年12月31日

高维空间径向基函数拟插值算子构造方法及其应用

国家自然科学基金

0+阅读 · 2013年12月31日

带跳扩散模型的非参数统计推断研究

国家自然科学基金

0+阅读 · 2013年12月31日

多视点视频自适应压缩感知与并行多级预测重构研究

国家自然科学基金

0+阅读 · 2013年12月31日

大规模数据的个性化分类学习

国家自然科学基金

1+阅读 · 2012年12月31日

突发事件网络舆情演变过程中的人群仿真研究

国家自然科学基金

0+阅读 · 2012年12月31日

激活成纤维细胞改善移植胰岛的再血管化

国家自然科学基金

0+阅读 · 2009年12月31日

基于小目标探测的高分辨率遥感影像交通参数提取研究

国家自然科学基金

1+阅读 · 2008年12月31日

核因子-kappaB对唐氏综合征关键区域蛋白RCAN1异构体4的转录调节异常参与了阿尔茨海默病的发生

国家自然科学基金

0+阅读 · 2008年12月31日

相关论文

VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training

Arxiv

0+阅读 · 2022年7月7日

MaiT: Leverage Attention Masks for More Efficient Image Transformers

Arxiv

0+阅读 · 2022年7月6日

Some results on locally repairable codes with minimum distance $7$ and locality $2$

Arxiv

0+阅读 · 2022年7月6日

Towards Better Understanding of Self-Supervised Representations

Arxiv

0+阅读 · 2022年7月6日

Self-supervised Detransformation Autoencoder for Representation Learning in Open Set Recognition

Arxiv

0+阅读 · 2022年7月6日

Masked Autoencoders Are Scalable Vision Learners

Arxiv

27+阅读 · 2021年11月11日

A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning

Arxiv

11+阅读 · 2021年4月29日

CausalVAE: Disentangled Representation Learning via Neural Structural Causal Models

Arxiv

17+阅读 · 2021年3月23日

3D Hand Shape and Pose Estimation from a Single RGB Image

3D Hand Shape and Pose Estimation from a Single RGB Image

Arxiv

17+阅读 · 2019年3月3日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

微信扫码咨询专知VIP会员