Large-scale video-language pre-training has shown significant improvement in video-language understanding tasks. Previous studies of video-language pretraining mainly focus on short-form videos (i.e., within 30 seconds) and sentences, leaving long-form video-language pre-training rarely explored. Directly learning representation from long-form videos and language may benefit many long-form video-language understanding tasks. However, it is challenging due to the difficulty of modeling long-range relationships and the heavy computational burden caused by more frames. In this paper, we introduce a Long-Form VIdeo-LAnguage pre-training model (LF-VILA) and train it on a large-scale long-form video and paragraph dataset constructed from an existing public dataset. To effectively capture the rich temporal dynamics and to better align video and language in an efficient end-to-end manner, we introduce two novel designs in our LF-VILA model. We first propose a Multimodal Temporal Contrastive (MTC) loss to learn the temporal relation across different modalities by encouraging fine-grained alignment between long-form videos and paragraphs. Second, we propose a Hierarchical Temporal Window Attention (HTWA) mechanism to effectively capture long-range dependency while reducing computational cost in Transformer. We fine-tune the pre-trained LF-VILA model on seven downstream long-form video-language understanding tasks of paragraph-to-video retrieval and long-form video question-answering, and achieve new state-of-the-art performances. Specifically, our model achieves 16.1% relative improvement on ActivityNet paragraph-to-video retrieval task and 2.4% on How2QA task, respectively. We release our code, dataset, and pre-trained models at https://github.com/microsoft/XPretrain.


翻译:大型视频培训前的学习显示,在视频语言理解任务方面出现了显著的改进。以前对视频语言培训前的研究表明,主要侧重于短格式视频(即30秒以内)和句子,使得远程视频语言培训前的探索很少。从长格式视频和语言直接学习演示可能有益于许多长格式视频理解任务。然而,由于难以建模长程关系和由更多框架造成的沉重的计算负担,这具有挑战性。在本文中,我们引入了长格式 Video-LANguage培训前模型(即30秒以内)和句子,主要侧重于短格式视频(LF-VILA)和从现有公共数据集构建的大型长格式视频和段落数据集。要有效地捕捉丰富的时间动态,并以高效的端对端方式更好地调整视频和语言。我们引入了我们的LF-VIA模型之前的两种新型设计。我们首先提议采用多模式(MTC) 快速对比(MTC) 来学习不同模式之间的时间关系,鼓励在长格式视频-视频-视频-视频-服务器版本版本版本版本版本上进行精细调调整,同时在IMFIL的版本版本版本版本版本版本服务器上实现成本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本任务任务。我们提议。我们提议在IMFSIMFIMFIMFIMFIMFS-SIMFIMF-版本版本版本版本版本版本版本版本版本的版本版本的版本的版本的版本的版本版本版本版本版本版本版本版本版本版本版本版本的版本的版本的版本的版本版本版本版本版本版本版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本版本的版本的版本的版本的版本版本版本版本的版本的版本的版本的版本的版本的版本化版本化版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本,在服务器的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本的版本</s>

0
下载
关闭预览

相关内容

自然语言处理顶会NAACL2022最佳论文出炉!
专知会员服务
42+阅读 · 2022年6月30日
专知会员服务
60+阅读 · 2020年3月19日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
49+阅读 · 2020年2月26日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
23+阅读 · 2019年11月4日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
27+阅读 · 2023年1月12日
Arxiv
69+阅读 · 2022年6月13日
Arxiv
20+阅读 · 2021年9月21日
Arxiv
13+阅读 · 2020年4月12日
VIP会员
相关基金
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员