Large-scale video-language pre-training has shown significant improvement in video-language understanding tasks. Previous studies of video-language pretraining mainly focus on short-form videos (i.e., within 30 seconds) and sentences, leaving long-form video-language pre-training rarely explored. Directly learning representation from long-form videos and language may benefit many long-form video-language understanding tasks. However, it is challenging due to the difficulty of modeling long-range relationships and the heavy computational burden caused by more frames. In this paper, we introduce a Long-Form VIdeo-LAnguage pre-training model (LF-VILA) and train it on a large-scale long-form video and paragraph dataset constructed from an existing public dataset. To effectively capture the rich temporal dynamics and to better align video and language in an efficient end-to-end manner, we introduce two novel designs in our LF-VILA model. We first propose a Multimodal Temporal Contrastive (MTC) loss to learn the temporal relation across different modalities by encouraging fine-grained alignment between long-form videos and paragraphs. Second, we propose a Hierarchical Temporal Window Attention (HTWA) mechanism to effectively capture long-range dependency while reducing computational cost in Transformer. We fine-tune the pre-trained LF-VILA model on seven downstream long-form video-language understanding tasks of paragraph-to-video retrieval and long-form video question-answering, and achieve new state-of-the-art performances. Specifically, our model achieves 16.1% relative improvement on ActivityNet paragraph-to-video retrieval task and 2.4% on How2QA task, respectively. We release our code, dataset, and pre-trained models at https://github.com/microsoft/XPretrain.
翻译:大型视频培训前的学习显示,在视频语言理解任务方面出现了显著的改进。以前对视频语言培训前的研究表明,主要侧重于短格式视频(即30秒以内)和句子,使得远程视频语言培训前的探索很少。从长格式视频和语言直接学习演示可能有益于许多长格式视频理解任务。然而,由于难以建模长程关系和由更多框架造成的沉重的计算负担,这具有挑战性。在本文中,我们引入了长格式 Video-LANguage培训前模型(即30秒以内)和句子,主要侧重于短格式视频(LF-VILA)和从现有公共数据集构建的大型长格式视频和段落数据集。要有效地捕捉丰富的时间动态,并以高效的端对端方式更好地调整视频和语言。我们引入了我们的LF-VIA模型之前的两种新型设计。我们首先提议采用多模式(MTC) 快速对比(MTC) 来学习不同模式之间的时间关系,鼓励在长格式视频-视频-视频-视频-服务器版本版本版本版本版本上进行精细调调整,同时在IMFIL的版本版本版本版本版本版本服务器上实现成本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本任务任务。我们提议。我们提议在IMFSIMFIMFIMFIMFIMFS-SIMFIMF-版本版本版本版本版本版本版本版本版本的版本版本的版本的版本的版本的版本版本版本版本版本版本版本版本版本版本版本版本的版本的版本的版本的版本版本版本版本版本版本版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本的版本的版本的版本的版本版本版本版本的版本的版本的版本的版本的版本的版本化版本化版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本,在服务器的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本</s>