Recent video-language models have shown great potential for video understanding, but still struggle with accurate temporal grounding for event-level perception. We observe that two main factors in video understanding (i.e., temporal grounding and textual response) form a logical hierarchy: accurate temporal evidence grounding lays the foundation for reliable textual response. However, existing works typically handle these two tasks in a coupled manner without a clear logical structure, leading to sub-optimal objectives. We address this from a factorized learning perspective. We first propose D$^2$VLM, a framework that decouples the learning of these two tasks while also emphasizing their inherent dependency. We adopt a "grounding then answering with evidence referencing" paradigm and introduce evidence tokens for evidence grounding, which emphasize event-level visual semantic capture beyond the focus on timestamp representation in existing works. To further facilitate the learning of these two tasks, we introduce a novel factorized preference optimization (FPO) algorithm. Unlike standard preference optimization, FPO explicitly incorporates probabilistic temporal grounding modeling into the optimization objective, enabling preference learning for both temporal grounding and textual response. We also construct a synthetic dataset to address the lack of suitable datasets for factorized preference learning with explicit temporal grounding. Experiments on various tasks demonstrate the clear advantage of our approach. Our source code is available at https://github.com/nusnlp/d2vlm.


翻译:近期视频-语言模型在视频理解方面展现出巨大潜力,但在事件级感知的精确时序定位方面仍存在困难。我们观察到视频理解中的两个核心要素(即时序定位与文本响应)构成逻辑层次关系:准确的时序证据定位是可靠文本响应的基础。然而现有研究通常以耦合方式处理这两项任务,缺乏清晰的逻辑结构,导致目标函数次优。我们从因子化学习视角解决这一问题。首先提出D$^2$VLM框架,该框架在解耦两项任务学习的同时强调其内在依赖关系。采用"先定位后证据参照应答"范式,引入证据标记实现证据定位,其注重事件级视觉语义捕获,超越了现有工作对时间戳表征的侧重。为促进两项任务的协同学习,我们提出新颖的因子化偏好优化算法。与标准偏好优化不同,FPO将概率化时序定位建模显式纳入优化目标,实现对时序定位与文本响应的联合偏好学习。针对显式时序定位的因子化偏好学习数据集稀缺问题,我们还构建了合成数据集。多任务实验结果表明本方法具有显著优势。源代码发布于https://github.com/nusnlp/d2vlm。

0
下载
关闭预览

相关内容

国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员