Current video understanding models excel at recognizing "what" is happening but fall short in high-level cognitive tasks like causal reasoning and future prediction, a limitation rooted in their lack of commonsense world knowledge. To bridge this cognitive gap, we propose a novel framework that synergistically fuses a powerful Vision Foundation Model (VFM) for deep visual perception with a Large Language Model (LLM) serving as a knowledge-driven reasoning core. Our key technical innovation is a sophisticated fusion module, inspired by the Q-Former architecture, which distills complex spatiotemporal and object-centric visual features into a concise, language-aligned representation. This enables the LLM to effectively ground its inferential processes in direct visual evidence. The model is trained via a two-stage strategy, beginning with large-scale alignment pre-training on video-text data, followed by targeted instruction fine-tuning on a curated dataset designed to elicit advanced reasoning and prediction skills. Extensive experiments demonstrate that our model achieves state-of-the-art performance on multiple challenging benchmarks. Notably, it exhibits remarkable zero-shot generalization to unseen reasoning tasks, and our in-depth ablation studies validate the critical contribution of each architectural component. This work pushes the boundary of machine perception from simple recognition towards genuine cognitive understanding, paving the way for more intelligent and capable AI systems in robotics, human-computer interaction, and beyond.


翻译:当前视频理解模型在识别“正在发生什么”方面表现出色,但在因果推理与未来预测等高级认知任务上存在不足,这一局限根源于其缺乏常识性世界知识。为弥合这一认知鸿沟,我们提出了一种新颖框架,该框架将用于深度视觉感知的强大视觉基础模型与作为知识驱动推理核心的大型语言模型进行协同融合。我们的关键技术创新是一个受Q-Former架构启发的复杂融合模块,该模块将复杂的时空及以对象为中心的视觉特征提炼为简洁、语言对齐的表示。这使得大型语言模型能够将其推理过程有效地建立在直接的视觉证据之上。该模型通过两阶段策略进行训练:首先在视频-文本数据上进行大规模对齐预训练,随后在精心策划的、旨在激发高级推理与预测技能的数据集上进行针对性指令微调。大量实验表明,我们的模型在多个具有挑战性的基准测试中实现了最先进的性能。值得注意的是,该模型在未见过的推理任务上展现出卓越的零样本泛化能力,并且我们深入的消融研究验证了每个架构组件的关键贡献。这项工作将机器感知的边界从简单识别推向真正的认知理解,为机器人、人机交互及其他领域更智能、更强大的AI系统铺平了道路。

0
下载
关闭预览

相关内容

大数据分析研究组开源Easy Machine Learning系统
中国科学院网络数据重点实验室
17+阅读 · 2017年6月13日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员