视频问答任务需要根据语言线索的组合语义获取并使用视频中视觉信号的时域和空域特征,从而生成回答。近来,在目标数据集上微调(fine-tuning)预训练模型的范式在多模态任务中取得了非常好的效果,尤其是对视频问答任务的预训练模型。这些现存的多模态学习范式,主要通过从视频中提取空间视觉信息以及运动特征来表示视频内容,并设计了不同的注意力机制(如 question-routed attention 和 co-attention 等)来整合这些特征。然而,这些多模态学习范式都存在一个缺陷:忽略了同一个视频中视频段-文本对(clip-text pair)之间的相关性,而在训练时将每一个视频段-文本对都视为是相互独立的样本。因此,这些多模态学习范式无法很好地利用同一个视频中不同样本之间丰富的上下文语义信息。
为了解决上述问题,微软亚洲研究院的研究员们对如何更好地挖掘并利用这些信息进行了研究。研究员们认为,同视频中的不同视频段应该具有较为相似的全局视频特征语义以及相关联的上下文信息,并且这些信息可以被用于增强网络的学习效果。因此,研究员们提出了一个具有创新性、基于自驱动孪生采样和推理的端到端多模态学习框架 SimSamRea,能够应用在视频问答任务中。
在该框架中,研究员们创新地使用了孪生采样和推理,对同视频中的多个视频段信息进行融合,充分利用视频上下文信息为网络的训练过程提供指导。同时为该框架精心设计了一个推理策略,其主要包括孪生知识生成模块和孪生知识推理模块,可以预测出每个视频段所属的类别,传播并且融合基准段和孪生段之间的相关联信息,再根据模型预测出的每个视频段的类别概率为每个视频段生成软标签。研究员们以令每个视频段的软标签与其预测类别尽可能接近为优化目标,使得同一个视频中的多个视频段的语义特征尽可能相似,从而为框架的训练过程提供指导。
在五个常用的视频问答数据集上进行实验的结果显示,该方法不仅可以在训练过程中为网络提供有效的指导,而且在进行推断时没有任何额外开销(例如计算量、内存消耗、网络参数量),充分验证了 SiaSamRea 框架对视频问答任务的有效性和优越性。