【CVPR2025】重新思考长时视频理解中的时序检索 - 专知VIP

会员服务 ·

2

CVPR 2025 · 视频理解 ·

【CVPR2025】重新思考长时视频理解中的时序检索

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

高效理解长时视频仍然是计算机视觉中的一项重大挑战。本文重新审视了长时视频理解中的时序检索范式，并针对所有当前最先进（SOTA）长上下文视觉语言模型（Vision-Language Models, VLMs）中存在的一个基础性问题进行了探讨。本研究的贡献主要有两点： 1. 我们将时序检索问题重新定义为“长视频大海捞针”（Long Video Haystack）问题——即在成千上万个视频帧中，根据特定查询，从中找出最小数量（例如1到5帧）的相关帧。基于这一新颖设定，我们提出了 LV-HAYSTACK 数据集，这是首个专为提升时序检索质量与效率而构建的数据集，包含 480 小时视频与 15,092 个由人工标注的实例，可用于训练与评估。该数据集上的实验结果揭示出当前研究在时序检索能力上的显著空白——当前最先进的检索方法在 LONGVIDEOBENCH 子集上 时序 F1 分数仅为 2.1%。 1. 受图像中视觉搜索机制启发，我们提出了一种轻量级时序检索框架 T，将高昂的时序检索过程重新转化为空间检索问题。T 借助图像中常用的强大视觉定位技术，并引入了一种可适应的“时空变焦”机制，能够在时间与空间两个维度上进行精细搜索。大量实验证明，T* 与现有方法集成后可显著提升长时视频理解的性能。在 32 帧的推理预算下，T* 可将 GPT-4o 在 LONGVIDEOBENCH XL 子集上的表现从 50.5% 提升至 53.1%，将 LLaVA-OneVision-OV-72B 的表现从 56.5% 提升至 62.4%。

我们的代码、基准测试工具与模型已包含在补充材料中提供。

成为VIP会员查看完整内容

6

相关内容

CVPR 2025

CLIP通用提示学习的简要概述

CLIP通用提示学习的简要概述

专知会员服务

15+阅读 · 3月13日

【NeurIPS2024】训练计算最优的蛋白质语言模型

【NeurIPS2024】训练计算最优的蛋白质语言模型

专知会员服务

9+阅读 · 2024年11月8日

金融时间序列预测中的可解释人工智能（XAI）综述

金融时间序列预测中的可解释人工智能（XAI）综述

专知会员服务

42+阅读 · 2024年7月25日

【TPAMI2024】增强视频-语言表示的结构时空对齐方法

【TPAMI2024】增强视频-语言表示的结构时空对齐方法

专知会员服务

24+阅读 · 2024年6月30日

RAG与RAU：自然语言处理中的检索增强语言模型综述

RAG与RAU：自然语言处理中的检索增强语言模型综述

专知会员服务

83+阅读 · 2024年5月3日

Sora 作为 AGI 世界模型？关于《文本到视频生成》完整综述

Sora 作为 AGI 世界模型？关于《文本到视频生成》完整综述

专知会员服务

46+阅读 · 2024年3月11日

【CVPR2023】三维医学图像自监督预训练中的几何视觉相似性学习

【CVPR2023】三维医学图像自监督预训练中的几何视觉相似性学习

专知会员服务

32+阅读 · 2023年3月3日

【AAAI2023】面向领域自适应语义分割的几何感知网络

【AAAI2023】面向领域自适应语义分割的几何感知网络

专知会员服务

21+阅读 · 2022年12月7日

【ECCV2022】对比视觉Transformer的在线持续学习

【ECCV2022】对比视觉Transformer的在线持续学习

专知会员服务

23+阅读 · 2022年7月29日

【CVPR2021】深度学习细粒度视觉分析

【CVPR2021】深度学习细粒度视觉分析

专知会员服务

36+阅读 · 2021年6月23日

【AI与军事】机器学习的军事应用，一种文献计量视角

【AI与军事】机器学习的军事应用，一种文献计量视角

专知

48+阅读 · 2022年4月25日

AAAI 2022 | ProtGNN：自解释图神经网络

AAAI 2022 | ProtGNN：自解释图神经网络

专知

10+阅读 · 2022年2月28日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【CVPR 2020 Oral】小样本类增量学习

【CVPR 2020 Oral】小样本类增量学习

专知

19+阅读 · 2020年6月26日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

【论文笔记】用于Web级推荐系统的图卷积神经网络

【论文笔记】用于Web级推荐系统的图卷积神经网络

专知

20+阅读 · 2019年9月30日

【AutoML】自动机器学习：最近进展研究综述 AutoML：A survey of State-of-the-art

【AutoML】自动机器学习：最近进展研究综述 AutoML：A survey of State-of-the-art

产业智能官

15+阅读 · 2019年8月13日

论文浅尝 | 面向单关系事实问题的中文问答模型

论文浅尝 | 面向单关系事实问题的中文问答模型

开放知识图谱

28+阅读 · 2019年2月11日

多重假设检验中的k-FWER控制

国家自然科学基金

0+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

“自然语言-草图”耦合的地理场景查询方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

连通图的三个最大能量问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于高空间分辨电子显微学In2-xGaxO3(ZnO)m缺陷分析

国家自然科学基金

0+阅读 · 2015年12月31日

Biot模型基于有限元离散的多重网格算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于集成流形学习的监控视频中人体行为识别研究

国家自然科学基金

2+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

MinkOcc: Towards real-time label-efficient semantic occupancy prediction

Arxiv

0+阅读 · 4月3日

Dependence-based fuzzy clustering of functional time series

Arxiv

0+阅读 · 4月2日

A computational framework for evaluating tire-asphalt hysteretic friction including pavement roughness

Arxiv

0+阅读 · 4月2日

Anisotropic mesh spacing prediction using neural networks

Arxiv

0+阅读 · 4月1日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

165+阅读 · 2023年4月20日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

203+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

448+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

139+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

76+阅读 · 2023年3月26日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

VIP会员

相关主题

相关VIP内容

CLIP通用提示学习的简要概述

CLIP通用提示学习的简要概述

专知会员服务

15+阅读 · 3月13日

【NeurIPS2024】训练计算最优的蛋白质语言模型

【NeurIPS2024】训练计算最优的蛋白质语言模型

专知会员服务

9+阅读 · 2024年11月8日

金融时间序列预测中的可解释人工智能（XAI）综述

金融时间序列预测中的可解释人工智能（XAI）综述

专知会员服务

42+阅读 · 2024年7月25日

【TPAMI2024】增强视频-语言表示的结构时空对齐方法

【TPAMI2024】增强视频-语言表示的结构时空对齐方法

专知会员服务

24+阅读 · 2024年6月30日

RAG与RAU：自然语言处理中的检索增强语言模型综述

RAG与RAU：自然语言处理中的检索增强语言模型综述

专知会员服务

83+阅读 · 2024年5月3日

Sora 作为 AGI 世界模型？关于《文本到视频生成》完整综述

Sora 作为 AGI 世界模型？关于《文本到视频生成》完整综述

专知会员服务

46+阅读 · 2024年3月11日

【CVPR2023】三维医学图像自监督预训练中的几何视觉相似性学习

【CVPR2023】三维医学图像自监督预训练中的几何视觉相似性学习

专知会员服务

32+阅读 · 2023年3月3日

【AAAI2023】面向领域自适应语义分割的几何感知网络

【AAAI2023】面向领域自适应语义分割的几何感知网络

专知会员服务

21+阅读 · 2022年12月7日

【ECCV2022】对比视觉Transformer的在线持续学习

【ECCV2022】对比视觉Transformer的在线持续学习

专知会员服务

23+阅读 · 2022年7月29日

【CVPR2021】深度学习细粒度视觉分析

【CVPR2021】深度学习细粒度视觉分析

专知会员服务

36+阅读 · 2021年6月23日

热门VIP内容

开通专知VIP会员享更多权益服务

【CVPR2025】Mamba 作为桥梁：连接视觉基础模型与视觉语言模型以实现跨领域的语义分割

美军2025最新条令《陆军航空兵野战条令（FM 3-04）》164页

《基于模型的系统工程支持海军发展：无人水面舰艇》2025最新292页

大语言模型在电力系统中的应用初探

相关资讯

【AI与军事】机器学习的军事应用，一种文献计量视角

【AI与军事】机器学习的军事应用，一种文献计量视角

专知

48+阅读 · 2022年4月25日

AAAI 2022 | ProtGNN：自解释图神经网络

AAAI 2022 | ProtGNN：自解释图神经网络

专知

10+阅读 · 2022年2月28日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【CVPR 2020 Oral】小样本类增量学习

【CVPR 2020 Oral】小样本类增量学习

专知

19+阅读 · 2020年6月26日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

【论文笔记】用于Web级推荐系统的图卷积神经网络

【论文笔记】用于Web级推荐系统的图卷积神经网络

专知

20+阅读 · 2019年9月30日

【AutoML】自动机器学习：最近进展研究综述 AutoML：A survey of State-of-the-art

【AutoML】自动机器学习：最近进展研究综述 AutoML：A survey of State-of-the-art

产业智能官

15+阅读 · 2019年8月13日

论文浅尝 | 面向单关系事实问题的中文问答模型

论文浅尝 | 面向单关系事实问题的中文问答模型

开放知识图谱

28+阅读 · 2019年2月11日

相关基金

多重假设检验中的k-FWER控制

国家自然科学基金

0+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

“自然语言-草图”耦合的地理场景查询方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

连通图的三个最大能量问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于高空间分辨电子显微学In2-xGaxO3(ZnO)m缺陷分析

国家自然科学基金

0+阅读 · 2015年12月31日

Biot模型基于有限元离散的多重网格算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于集成流形学习的监控视频中人体行为识别研究

国家自然科学基金

2+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

相关论文

MinkOcc: Towards real-time label-efficient semantic occupancy prediction

Arxiv

0+阅读 · 4月3日

Dependence-based fuzzy clustering of functional time series

Arxiv

0+阅读 · 4月2日

A computational framework for evaluating tire-asphalt hysteretic friction including pavement roughness

Arxiv

0+阅读 · 4月2日

Anisotropic mesh spacing prediction using neural networks

Arxiv

0+阅读 · 4月1日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

165+阅读 · 2023年4月20日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

203+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

448+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

139+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

76+阅读 · 2023年3月26日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员