人类通过多种渠道感知世界,如眼睛看到的图像或耳朵听到的声音。尽管任何一个单独的通道可能是不完整的或有噪声的,但人类可以自然地将从多个通道收集的信息进行排列和融合,以便掌握更好地理解世界所需的关键概念。人工智能的核心愿望之一是开发算法,使计算机具有从多模态(或多通道)数据中有效学习的能力。这些数据类似于通过视觉和语言获得的视觉和声音,帮助人类理解周围的世界。例如,计算机可以通过搜索最相似的图像来进行文本查询(反之亦然),并通过使用自然语言描述图像的内容来模拟这种能力。
视觉与语言(VL),一个位于计算机视觉和自然语言处理(NLP)之间的热门研究领域,旨在实现这一目标。视觉与语言预训练(vision and language pre-training, VLP)受到语言模型预训练在NLP中的巨大成功的启发,近年来迅速引起了两方面的关注。在本教程中,我们将涵盖VLP前沿的最新方法和原则,包括(1) 基于区域特征和端到端图像文本训练前;(2) 统一的视觉语言建模;(3) 延伸到视频语言预训练; (4) 从语言监督中学习视觉模型;(5) 视觉合成。