Key frame selection in video understanding presents significant challenges. Traditional top-K selection methods, which score frames independently, often fail to optimize the selection as a whole. This independent scoring frequently results in selecting frames that are temporally clustered and visually redundant. Additionally, training lightweight selectors using pseudo labels generated offline by Multimodal Large Language Models (MLLMs) prevents the supervisory signal from dynamically adapting to task objectives. To address these limitations, we propose an end-to-end trainable, task-adaptive framework for frame selection. A Chain-of-Thought approach guides a Small Language Model (SLM) to generate task-specific implicit query vectors, which are combined with multimodal features to enable dynamic frame scoring. We further define a continuous set-level objective function that incorporates relevance, coverage, and redundancy, enabling differentiable optimization via Gumbel-Softmax to select optimal frame combinations at the set level. Finally, student-teacher mutual learning is employed, where the student selector (SLM) and teacher reasoner (MLLM) are trained to align their frame importance distributions via KL divergence. Combined with cross-entropy loss, this enables end-to-end optimization, eliminating reliance on static pseudo labels. Experiments across various benchmarks, including Video-MME, LongVideoBench, MLVU, and NExT-QA, demonstrate that our method significantly outperforms existing approaches.


翻译:视频理解中的关键帧选择面临显著挑战。传统的Top-K选择方法独立地对各帧进行评分,往往无法实现整体优化。这种独立评分方式常导致所选帧在时间上聚集且视觉内容冗余。此外,使用多模态大语言模型离线生成的伪标签训练轻量级选择器,使得监督信号无法动态适应任务目标。为应对这些局限,我们提出了一种端到端可训练、任务自适应的帧选择框架。通过思维链方法引导小型语言模型生成任务特定的隐式查询向量,该向量与多模态特征结合以实现动态帧评分。我们进一步定义了包含相关性、覆盖度与冗余度的连续集合级目标函数,借助Gumbel-Softmax实现可微分优化,从而在集合层面选择最优帧组合。最后采用师生互学习机制,通过KL散度对齐学生选择器(小型语言模型)与教师推理器(多模态大语言模型)的帧重要性分布,结合交叉熵损失实现端到端优化,摆脱了对静态伪标签的依赖。在Video-MME、LongVideoBench、MLVU及NExT-QA等多个基准测试上的实验表明,本方法显著优于现有方案。

0
下载
关闭预览

相关内容

Python图像处理,366页pdf,Image Operators Image Processing in Python
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员