我们对世界的体验是多模态的,然而深度学习网络传统上是为图像、音频片段或文本等单模态输入而设计和训练的。在这篇论文中,我们提出了策略来利用多模态信息(以视觉、文本、语音和非语音音频的形式)来自动理解以人为中心的视频。本文提出的关键思想是 (i)跨模态监督,(ii)自监督表示学习和(iii)模态融合。在跨模态监督中,来自监督丰富的模态的数据标签被用于学习另一个缺乏监督的目标模态的表示,从而避免了在目标模态域中昂贵的手动注释的需要。这有效地利用了模态之间的冗余或重叠信息。我们将展现该技术在三个不同任务中的效用; 首先,我们使用人脸识别和视觉主动说话人检测来管理一个被称为VoxCeleb的大规模人类语音视听数据集,对其进行训练,产生了最先进的说话人识别模型; 其次,我们训练了一个基于文本的模型来预测仅从转录的语音中的动作标签,并将这些标签转移到相应的视频中。使用这些标签进行的训练使我们能够在完全监督的动作识别模型上表现得更好,而这些模型是通过昂贵的人工监督进行训练的; 第三,我们从为情感识别而训练的人脸模型中提取信息到语音领域,而在语音领域,手动情感标注是昂贵的。本文探讨的第二个关键思想是利用模态冗余进行自监督表示学习。在这里,我们学习了在没有任何人工监督的情况下,在任何一种模式下的视听表示,特别是对于人类的面孔和声音。与现有的表示不同,我们的联合表示支持从音频到视觉的跨模态检索,反之亦然。然后,我们将这项工作扩展到明确地消除习得偏见,从而实现更大的泛化。最后,我们通过开发新的模态融合架构,有效地结合不同模式下的互补信息。通过将视频中的多个模态的信息提取到一个单一的、紧凑的视频表示,我们实现了对可能丢失、损坏、闭塞或具有不同级别背景噪声的单峰输入的鲁棒性。利用这些模型,我们在动作识别和视频文本检索方面都取得了最先进的结果。
https://www.robots.ox.ac.uk/~vgg/publications/2020/Nagrani20e/nagrani20e.pdf