Although large-scale video-language pre-training models, which usually build a global alignment between the video and the text, have achieved remarkable progress on various downstream tasks, the idea of adopting fine-grained information during the pre-training stage is not well explored. In this work, we propose STOA-VLP, a pre-training framework that jointly models object and action information across spatial and temporal dimensions. More specifically, the model regards object trajectories across frames and multiple action features from the video as fine-grained features. Besides, We design two auxiliary tasks to better incorporate both kinds of information into the pre-training process of the video-language model. The first is the dynamic object-text alignment task, which builds a better connection between object trajectories and the relevant noun tokens. The second is the spatial-temporal action set prediction, which guides the model to generate consistent action features by predicting actions found in the text. Extensive experiments on three downstream tasks (video captioning, text-video retrieval, and video question answering) demonstrate the effectiveness of our proposed STOA-VLP (e.g. 3.7 Rouge-L improvements on MSR-VTT video captioning benchmark, 2.9% accuracy improvements on MSVD video question answering benchmark, compared to previous approaches).


翻译:虽然大规模视频语言预培训模式通常在视频和文字之间建立全球统一,但在各种下游任务方面取得了显著进展,但在培训前阶段采用细微信息的想法没有得到很好地探讨。在这项工作中,我们提议STOA-VLP,这是一个培训前框架,共同模拟空间和时间方面的目标和行动信息。更具体地说,该模式将视频的物体轨道和多重动作特征作为细微的特征,作为跨框架和多个动作特征。此外,我们设计了两项辅助任务,以便更好地将两种信息纳入视频语言模式的培训前进程。第一个是动态对象-文本协调任务,在对象轨迹和相关名牌之间建立更好的联系。第二个是空间-时间行动组合预测,通过预测文本中的行动来指导产生一致行动特征的模式。关于三项下游任务(视频字幕、文字-视频检索和视频解答)的广泛实验,展示了我们拟议的STOA-VP-VLM改进方法的有效性。关于SBS-VBS-BRRRRRRRBRBRRRRRRRRRRBRBRBIGS-3.7-GRITGRVGRVRVRVGRVRBIGRVBIGRBRBRBRBRBIGRBRBRBIGRBRBIGRBRBRBRBRBRBIGRIGRBRBRBRBRBRBRBIGRM3.3.3.3.3.3.3.3.3.3.3.3.3.3.GRBIGRBIGRBIGRBRBRBIGRBIGRBIGRBIGRBIGIGRBIG3.3.3.3.3.3.3.3.3.3.3.3.3.3.3.3.3.3.3.3.3.3.3.L3-RBIGIGIGIGIGIV3.3.3.3.3.3.3.3.3.3.3.3.3.GIGIGIGIV3.3.3.3.3.3.3.3.3.3.3.3.L3-RBIBIBIGIGIGIGIGIGIGIGIBIBIGIGIGIGIGIGIGIGIGIG

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
20+阅读 · 2021年9月21日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员