高效理解长时视频仍然是计算机视觉中的一项重大挑战。本文重新审视了长时视频理解中的时序检索范式,并针对所有当前最先进(SOTA)长上下文视觉语言模型(Vision-Language Models, VLMs)中存在的一个基础性问题进行了探讨。 本研究的贡献主要有两点: 1. 我们将时序检索问题重新定义为“长视频大海捞针”(Long Video Haystack)问题——即在成千上万个视频帧中,根据特定查询,从中找出最小数量(例如1到5帧)的相关帧。基于这一新颖设定,我们提出了 LV-HAYSTACK 数据集,这是首个专为提升时序检索质量与效率而构建的数据集,包含 480 小时视频15,092 个由人工标注的实例,可用于训练与评估。该数据集上的实验结果揭示出当前研究在时序检索能力上的显著空白——当前最先进的检索方法在 LONGVIDEOBENCH 子集上 时序 F1 分数仅为 2.1%。 1. 受图像中视觉搜索机制启发,我们提出了一种轻量级时序检索框架 T,将高昂的时序检索过程重新转化为空间检索问题。T 借助图像中常用的强大视觉定位技术,并引入了一种可适应的“时空变焦”机制,能够在时间与空间两个维度上进行精细搜索。大量实验证明,T* 与现有方法集成后可显著提升长时视频理解的性能。在 32 帧的推理预算下,T* 可将 GPT-4o 在 LONGVIDEOBENCH XL 子集上的表现从 50.5% 提升至 53.1%,将 LLaVA-OneVision-OV-72B 的表现从 56.5% 提升至 62.4%

我们的代码、基准测试工具与模型已包含在补充材料中提供。

成为VIP会员查看完整内容
6

相关内容

CLIP通用提示学习的简要概述
专知会员服务
15+阅读 · 3月13日
【NeurIPS2024】训练计算最优的蛋白质语言模型
专知会员服务
9+阅读 · 2024年11月8日
金融时间序列预测中的可解释人工智能(XAI)综述
专知会员服务
42+阅读 · 2024年7月25日
【TPAMI2024】增强视频-语言表示的结构时空对齐方法
专知会员服务
24+阅读 · 2024年6月30日
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
83+阅读 · 2024年5月3日
【AAAI2023】面向领域自适应语义分割的几何感知网络
专知会员服务
21+阅读 · 2022年12月7日
【ECCV2022】对比视觉Transformer的在线持续学习
专知会员服务
23+阅读 · 2022年7月29日
【CVPR2021】深度学习细粒度视觉分析
专知会员服务
36+阅读 · 2021年6月23日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
【CVPR 2020 Oral】小样本类增量学习
专知
19+阅读 · 2020年6月26日
论文浅尝 | 面向单关系事实问题的中文问答模型
开放知识图谱
28+阅读 · 2019年2月11日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Arxiv
165+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
448+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
CLIP通用提示学习的简要概述
专知会员服务
15+阅读 · 3月13日
【NeurIPS2024】训练计算最优的蛋白质语言模型
专知会员服务
9+阅读 · 2024年11月8日
金融时间序列预测中的可解释人工智能(XAI)综述
专知会员服务
42+阅读 · 2024年7月25日
【TPAMI2024】增强视频-语言表示的结构时空对齐方法
专知会员服务
24+阅读 · 2024年6月30日
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
83+阅读 · 2024年5月3日
【AAAI2023】面向领域自适应语义分割的几何感知网络
专知会员服务
21+阅读 · 2022年12月7日
【ECCV2022】对比视觉Transformer的在线持续学习
专知会员服务
23+阅读 · 2022年7月29日
【CVPR2021】深度学习细粒度视觉分析
专知会员服务
36+阅读 · 2021年6月23日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员