高效理解长时视频仍然是计算机视觉中的一项重大挑战。本文重新审视了长时视频理解中的时序检索范式,并针对所有当前最先进(SOTA)长上下文视觉语言模型(Vision-Language Models, VLMs)中存在的一个基础性问题进行了探讨。 本研究的贡献主要有两点: 1. 我们将时序检索问题重新定义为“长视频大海捞针”(Long Video Haystack)问题——即在成千上万个视频帧中,根据特定查询,从中找出最小数量(例如1到5帧)的相关帧。基于这一新颖设定,我们提出了 LV-HAYSTACK 数据集,这是首个专为提升时序检索质量与效率而构建的数据集,包含 480 小时视频与 15,092 个由人工标注的实例,可用于训练与评估。该数据集上的实验结果揭示出当前研究在时序检索能力上的显著空白——当前最先进的检索方法在 LONGVIDEOBENCH 子集上 时序 F1 分数仅为 2.1%。 1. 受图像中视觉搜索机制启发,我们提出了一种轻量级时序检索框架 T,将高昂的时序检索过程重新转化为空间检索问题。T 借助图像中常用的强大视觉定位技术,并引入了一种可适应的“时空变焦”机制,能够在时间与空间两个维度上进行精细搜索。大量实验证明,T* 与现有方法集成后可显著提升长时视频理解的性能。在 32 帧的推理预算下,T* 可将 GPT-4o 在 LONGVIDEOBENCH XL 子集上的表现从 50.5% 提升至 53.1%,将 LLaVA-OneVision-OV-72B 的表现从 56.5% 提升至 62.4%。
我们的代码、基准测试工具与模型已包含在补充材料中提供。