本文研究了一种概念简单的掩码自编码器(MAE)扩展到视频的时空表示学习。我们随机屏蔽视频中的时空块,并学习自动编码器以像素重建它们。有趣的是,我们的MAE方法可以在几乎没有时空诱导偏差的情况下学习强表示(只有补丁和位置嵌入除外),而时空无关的随机掩蔽性能最好。我们观察到最优掩蔽比高达90%(图像上为75%),支持了该比例与数据信息冗余有关的假设。高掩蔽比导致大的加速,例如,在挂钟时间> 4x甚至更多。我们使用vanilla 视觉Transformers报告了几个具有挑战性的视频数据集的实验结果。我们观察到,MAE可以大大超过监督预训练的表现。我们进一步报告了在真实世界、未经整理的Instagram数据上训练的令人鼓舞的结果。我们的研究表明,掩码自编码的一般框架(BERT、MAE等)可以成为一个统一的方法,以最小的领域知识进行表示学习。

成为VIP会员查看完整内容
38

相关内容

掩码自编码MAE
【KDD2022】GraphMAE:自监督掩码图自编码器
专知会员服务
22+阅读 · 2022年6月12日
【CVPR 2022】视觉提示调整(VPT),Vision Prompt Tuning
专知会员服务
30+阅读 · 2022年3月12日
【ICLR2022】Transformers亦能贝叶斯推断
专知会员服务
24+阅读 · 2021年12月23日
专知会员服务
63+阅读 · 2021年4月11日
专知会员服务
53+阅读 · 2019年12月22日
比MAE更强,FAIR新方法MaskFeat用HOG刷新多个SOTA
机器之心
0+阅读 · 2022年1月6日
【ICLR2022】Transformers亦能贝叶斯推断
专知
0+阅读 · 2021年12月23日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
27+阅读 · 2021年11月11日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员