Scale is the primary factor for building a powerful foundation model that could well generalize to a variety of downstream tasks. However, it is still challenging to train video foundation models with billions of parameters. This paper shows that video masked autoencoder (VideoMAE) is a scalable and general self-supervised pre-trainer for building video foundation models. We scale the VideoMAE in both model and data with a core design. Specifically, we present a dual masking strategy for efficient pre-training, with an encoder operating on a subset of video tokens and a decoder processing another subset of video tokens. Although VideoMAE is very efficient due to high masking ratio in encoder, masking decoder can still further reduce the overall computational cost. This enables the efficient pre-training of billion-level models in video. We also use a progressive training paradigm that involves an initial pre-training on a diverse multi-sourced unlabeled dataset, followed by a post-pre-training on a mixed labeled dataset. Finally, we successfully train a video ViT model with a billion parameters, which achieves a new state-of-the-art performance on the datasets of Kinetics (90.0% on K400 and 89.9% on K600) and Something-Something (68.7% on V1 and 77.0% on V2). In addition, we extensively verify the pre-trained video ViT models on a variety of downstream tasks, demonstrating its effectiveness as a general video representation learner. The code and model is available at \url{https://github.com/OpenGVLab/VideoMAEv2}.


翻译:规模是构建功能强大且能够很好地适用于各种下游任务的基础模型的主要因素。然而,在训练拥有数十亿个参数的视频基础模型仍然很具有挑战性。本文显示出,视频自编码器(VideoMAE)是一种可扩展和通用的自监督预训练器,用于构建视频基础模型。我们使用核心设计方法,同时在模型和数据方面扩展了 VideoMAE。具体而言,我们提出了一种双重遮盖策略来实现高效的预训练,其中编码器处理视频标记的一个子集,解码器处理另一个子集。尽管 VideoMAE 在编码器中具有高遮盖比率,但遮盖解码器仍然可以进一步减少总体计算成本。这使得视频的数十亿级别的模型能够高效地进行预训练。我们还使用了一个渐进式培训范例,包括对多样化的多源未标记数据集进行初始预训练,然后对混合标记数据集进行后预训练。最后,我们成功地训练出带有十亿个参数的视频 ViT 模型,在 Kinetics(K400 上为 90.0%,K600 上为 89.9%)和 Something-Something(V1 上达到 68.7%,V2 上达到 77.0%)数据集上实现了最新的最佳性能。此外,我们广泛验证了预先训练的视频 ViT 模型在各种下游任务中的有效性,证明了其作为通用视频表示学习器的效果。代码和模型可在 \url{https://github.com/OpenGVLab/VideoMAEv2} 上下载。

0
下载
关闭预览

相关内容

【AAAI2023】SEPT:迈向可扩展和高效的视觉预训练
专知会员服务
11+阅读 · 2022年12月14日
【CVPR2022】基于知识蒸馏的高效预训练
专知会员服务
31+阅读 · 2022年4月23日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年6月2日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员