Video understanding relies on perceiving the global content and modeling its internal connections (e.g., causality, movement, and spatio-temporal correspondence). To learn these interactions, we apply a mask-then-predict pre-training task on discretized video tokens generated via VQ-VAE. Unlike language, where the text tokens are more independent, neighboring video tokens typically have strong correlations (e.g., consecutive video frames usually look very similar), and hence uniformly masking individual tokens will make the task too trivial to learn useful representations. To deal with this issue, we propose a block-wise masking strategy where we mask neighboring video tokens in both spatial and temporal domains. We also add an augmentation-free contrastive learning method to further capture the global content by predicting whether the video clips are sampled from the same video. We pre-train our model on uncurated videos and show that our pre-trained model can reach state-of-the-art results on several video understanding datasets (e.g., SSV2, Diving48). Lastly, we provide detailed analyses on model scalability and pre-training method design. Code is released at https://github.com/airsplay/vimpac.
翻译:视频理解依赖于感知全球内容和内部连接模型( 如因果关系、移动和时空通信等) 。 为了了解这些互动关系, 我们在通过 VQ- VAE 生成的离散视频符号上应用了隐蔽的预培训任务。 与语言不同, 文本符号比较独立, 相邻视频符号通常具有很强的关联性( 例如, 连续视频框架通常看起来非常相似), 因而统一遮盖单个符号会使任务变得太不重要, 无法了解有用的表达方式 。 为了解决这一问题, 我们提议了一个块式遮盖策略, 以在空间和时间域掩盖相邻视频符号 。 我们还增加了一个无扩展的对比学习方法, 进一步捕捉全球内容, 通过预测视频片段是否是来自同一视频的样本。 我们先将我们的模型放在不精确的视频上, 并显示我们经过预先训练的模型可以在多个视频理解数据集( 例如, SSV2, Diving48) 上达到最新的结果 。 我们提供详细分析模型设计/ 代码前的模型/ 格式分析 。 我们提供了详细分析。 在模型设计/ 格式/ 格式 格式 / 格式 。 在 格式 格式 格式 格式 之前的 。