在过去十年的繁荣发展之后,视频理解的研究已到达一个关键的节点,单纯依赖海量数据和复杂的架构已不再是适用于所有情况的万能解决方案。数据不平衡的普遍存在阻碍了深度神经网络(DNNs)有效学习潜在的因果机制,导致在遇到分布变化时(如长尾不平衡和扰动不平衡)性能显著下降。这一现象促使研究者开始探索替代方法,以捕捉视频数据中的因果模式。为了应对这些挑战并提高DNNs的鲁棒性,因果建模作为一种原则被提出,旨在发现观察到的相关性背后的真实因果模式。
本文主要研究视频语义理解领域,探索因果建模在推进两个基础任务中的潜力:视频关系检测(Video Relation Detection, VidVRD)和视频问答(Video Question Answering, VideoQA)。
总结来说,本论文的主要贡献如下:
- 我们提出了一种干预性视频关系检测方法,称为IVRD,旨在解决VidVRD中关系的长尾不平衡问题。尽管尾部关系具有信息性,但由于其在数据集中稀少,难以预测。我们特别提出了一套分层的关系原型,这迫使关系推理模块关注实体之间动态交互的视觉内容,而非依赖于对象与关系标签之间的伪相关性。通过引入因果推理,IVRD为改善长尾不平衡情况下的视频理解提供了一个有前景的方向,使模型能够更好地泛化到现实世界场景中,特别是在稀有或不常见的关系在场景理解中扮演关键角色时。
- 我们引入了一种视频问答中的不变性定位方法,称为IGV,这是一种与模型无关的学习框架,旨在解决由答案-环境之间的伪相关性带来的负面影响。IGV通过定位问题关键的(因果)场景,发现因果推理模式。具体而言,IGV利用了因果场景与答案之间的关系在环境变化时仍保持不变这一事实,并且去除因果场景应导致问题回答失败。通过定位这些关键场景,IGV使VideoQA模型能够专注于准确推理所需的视觉内容,同时避免环境负面的影响,从而显著提升了模型的推理能力。
- 我们提出了视频问答中的等变性定位方法EIGV,进一步增强了鲁棒性和视觉可解释性。基于IGV,EIGV还引入了等变性,促使回答过程对因果场景和问题中的语义变化更为敏感。相较之下,不变性定位要求回答过程对环境场景的变化不敏感。这两种正则化机制协同工作,区分因果场景与环境场景,并通过呈现视觉-语言对齐提供更多的透明性。通过结合不变性和等变性定位的优势,EIGV创建了一个更加鲁棒且可解释的VideoQA框架。
- 我们发现了视频问答中的时空推理,解决了长视频和多对象样本(即复杂视频问答)上的低准确性问题。现有的VideoQA实践(包括预训练模型如SeVila [162])大多是在短视频片段(约15秒)和少数实体(约2个)上进行训练的,因此在复杂视频(超过80秒且包含5个以上对象)上表现较差。原因在于长视频不可避免地引入大量冗余和伪相关性,因为许多与问题无关的环境对象存在。为应对这一挑战,我们首先强调建模问题关键的时间片段和空间对象的重要性,接着提出了时空推理(Spatio-Temporal Rationalization, STR)方法,通过可微选择模块自适应地收集问题关键的时间片段和对象,并通过跨模态交互进行推理。结合更合理的候选答案解码策略,STR有效识别出与问题无关的帧和对象作为因果模式,尤其在复杂场景下显著改善了预测性能。
本文的一个局限性在于对所识别因果场景的评估。在整个研究过程中,我们依赖于问题回答(QA)总体性能作为所发现因果场景质量的间接指标,基于这样一个推理:更准确地定位因果场景可能会提供更丰富的问题-关系视觉线索,从而提升QA性能。然而,值得注意的是,基于因果场景的直接量化指标将提供更具说服力的见解。遗憾的是,由于缺乏人类级别的定位标注,当前工作中未能实现这种度量。因此,未来的研究将着力建立一个专门针对因果场景的评估基准,涉及对回答过程所依赖的视觉元素进行人类标注。这一举措将有助于更全面和严格地评估因果场景的发现。
总之,本文的贡献拓展了因果建模在视频语义理解中的前沿应用,赋能AI系统掌握因果模式,并在应对视频理解挑战任务中提升性能。