在对大规模视频-语言模型(VLMs)进行预训练的过程中,尽管在各种下游视频-语言任务中展示了巨大的潜力,现有的VLMs仍可能存在一些常见的局限性,例如粗粒度的跨模态对齐、时间动态的欠建模以及视频-语言视图的脱节。在本研究中,我们针对这些问题提出了一种细粒度的结构时空对齐学习方法(即Finsta),以增强VLMs的表现。

首先,我们使用细粒度的场景图(SG)结构来表示输入文本和视频,并将这两种模态统一到一个整体场景图(HSG)中,以桥接两种模态之间的差异。然后,我们构建了一个基于SG的框架,其中文本场景图(TSG)通过图Transformer进行编码,而视频动态场景图(DSG)和整体场景图(HSG)则通过一种新颖的循环图Transformer进行空间和时间特征传播。此外,我们还设计了一种时空高斯差分图Transformer,以增强对物体在空间和时间维度上变化的感知。

接下来,基于TSG和DSG的细粒度结构特征,我们分别进行以物体为中心的空间对齐和以谓词为中心的时间对齐,从而在空间性和时间性上增强视频-语言的基础。我们将该方法设计为一个即插即用的系统,可以集成到现有的经过良好训练的VLMs中以进一步增强表示能力,而无需从头开始训练或在下游应用中依赖场景图注释。

在6个代表性的视频-语言建模任务和12个数据集的标准和长视频场景中,Finsta在细调和零样本设置中持续改进了现有的13个高性能VLMs,并显著刷新了当前的最先进的终端任务性能。

https://www.zhuanzhi.ai/paper/221d21a6861c4635f618bc1cc84cfbd0

成为VIP会员查看完整内容
24

相关内容

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
【AAAI2024】基于对比上下文学习的自定义语言模型响应
专知会员服务
26+阅读 · 2024年2月1日
【NeurIPS2023】朝向自解释的图级异常检测
专知会员服务
30+阅读 · 2023年10月26日
【CVPR2023】探索少样本图像生成中的不兼容知识迁移
专知会员服务
21+阅读 · 2023年4月18日
专知会员服务
19+阅读 · 2021年9月23日
专知会员服务
15+阅读 · 2021年6月26日
【AAAI2023】用于图对比学习的谱特征增强
专知
18+阅读 · 2022年12月11日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【CVPR 2020 Oral】小样本类增量学习
专知
17+阅读 · 2020年6月26日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
162+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
424+阅读 · 2023年3月31日
Arxiv
69+阅读 · 2023年3月26日
Arxiv
22+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
【AAAI2024】基于对比上下文学习的自定义语言模型响应
专知会员服务
26+阅读 · 2024年2月1日
【NeurIPS2023】朝向自解释的图级异常检测
专知会员服务
30+阅读 · 2023年10月26日
【CVPR2023】探索少样本图像生成中的不兼容知识迁移
专知会员服务
21+阅读 · 2023年4月18日
专知会员服务
19+阅读 · 2021年9月23日
专知会员服务
15+阅读 · 2021年6月26日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员