Scale is the primary factor for building a powerful foundation model that could well generalize to a variety of downstream tasks. However, it is still challenging to train video foundation models with billions of parameters. This paper shows that video masked autoencoder (VideoMAE) is a scalable and general self-supervised pre-trainer for building video foundation models. We scale the VideoMAE in both model and data with a core design. Specifically, we present a dual masking strategy for efficient pre-training, with an encoder operating on a subset of video tokens and a decoder processing another subset of video tokens. Although VideoMAE is very efficient due to high masking ratio in encoder, masking decoder can still further reduce the overall computational cost. This enables the efficient pre-training of billion-level models in video. We also use a progressive training paradigm that involves an initial pre-training on a diverse multi-sourced unlabeled dataset, followed by a post-pre-training on a mixed labeled dataset. Finally, we successfully train a video ViT model with a billion parameters, which achieves a new state-of-the-art performance on the datasets of Kinetics (90.0% on K400 and 89.9% on K600) and Something-Something (68.7% on V1 and 77.0% on V2). In addition, we extensively verify the pre-trained video ViT models on a variety of downstream tasks, demonstrating its effectiveness as a general video representation learner.


翻译:规模是构建强大的基础模型,以便能够很好地推广到各种下游任务的主要因素。然而,训练数十亿个参数的视频基础模型仍然是具有挑战性的。本文展示了视频自动编码器(VideoMAE)作为一个可扩展和通用的自监督预训练器,用于构建视频基础模型。我们在模型和数据方面扩展了VideoMAE,具有核心设计。具体而言,我们提出了双重掩蔽策略,以实现高效的预训练,其中编码器对视频令牌的一个子集进行操作,而解码器处理另一个子集的视频令牌。虽然 VideoMAE 很高效,因为其编码器中具有高掩码比率,但掩码解码器仍然可以进一步减少总体计算成本。这使得在视频中能够高效地预训练十亿级的模型。我们还采用了一个渐进式训练范式,包括在多源未标记数据集上的初始预训练,接着在混合标记数据集上进行后预训练。最后,我们成功训练了一个拥有十亿个参数的视频 ViT 模型,它在 Kinetics 数据集(K400 上的 90.0% 和 K600 上的 89.9%)和 Something-Something 数据集(V1 上的 68.7% 和 V2 上的 77.0%)上实现了新的最先进性能。此外,我们广泛验证了预训练的视频 ViT 模型在各种下游任务上的可行性,证明了其作为一种通用视频表示学习器的有效性。

0
下载
关闭预览

相关内容

【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
24+阅读 · 2019年12月15日
自动化所11篇NeurIPS 2022新作速览!
专知
0+阅读 · 2022年10月5日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
27+阅读 · 2021年11月11日
Arxiv
12+阅读 · 2021年11月1日
VIP会员
相关VIP内容
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
24+阅读 · 2019年12月15日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员