在这篇论文中,我们提出了VidLA,一种大规模视频语言对齐的方法。之前的视频语言对齐方法有两个主要的局限性。首先,它们无法捕捉短距离和长距离的时间依赖性,并且通常采用复杂的层次化深度网络架构,这些架构难以与现有的预训练图像-文本基础模型集成。为了有效地解决这一限制,我们保持了网络架构的简单性,并使用了一组在层次化方式中在不同时间分辨率上操作的数据令牌,以解释视频的时间层次性特点。通过采用简单的双塔架构,我们能够将我们的视频语言模型初始化为预训练的图像-文本基础模型,从而提高最终性能。其次,现有的视频语言对齐工作由于缺乏语义对齐的大规模训练数据而面临困难。为了克服这一点,我们利用最近的大型语言模型(LLMs)来策划迄今为止最大的视频语言数据集,以获得更好的视觉基础。此外,与只包含短片段的现有视频-文本数据集不同,我们的数据集富含不同持续时间的视频片段,以帮助我们的时间层次化数据令牌在不同的时间尺度上提取更好的表示。总的来说,实证结果表明,我们提出的方法在多个检索基准测试上超越了最先进的方法,特别是在较长视频上,并且在分类基准测试上也表现出竞争力。

成为VIP会员查看完整内容
19

相关内容

【CVPR2024】MoReVQA:探索视频问答的模块化推理模型
ChatAug: 利用ChatGPT进行文本数据增强
专知会员服务
80+阅读 · 2023年3月4日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
13+阅读 · 2022年5月4日
【NeurIPS2021】用于视频分割的密集无监督学习
专知会员服务
14+阅读 · 2021年11月14日
【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习
专知会员服务
18+阅读 · 2021年2月12日
【SIGIR2020】LightGCN: 简化和增强图卷积网络推荐
专知会员服务
72+阅读 · 2020年6月1日
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
18+阅读 · 2021年10月25日
【ICML2020】对比多视角表示学习
专知
19+阅读 · 2020年6月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
157+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
400+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
Arxiv
139+阅读 · 2023年3月24日
Arxiv
20+阅读 · 2023年3月17日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员