多模态深度学习

在过去的几年中，在自然语言处理(NLP)和计算机视觉(CV)中使用的方法取得了一些突破。除了这些对单模态模型的改进之外，大规模的多模态方法已经成为一个非常活跃的研究领域。

这本书是一个研讨会的结果，在会上，我们回顾了多模态方法，并试图创建一个该领域的坚实概述，从深度学习的两个子领域的当前最先进的方法开始。此外，还讨论了一种模态转换为另一种模态的建模框架，以及利用一种模态来增强另一种模态的表示学习的模型。为总结第二部分，介绍了专注于同时处理两种模态的架构。最后，还介绍了其他模态以及通用多模态模型，这些模型能够在一个统一的架构内处理不同模态上的不同任务。

1. 引言

人类有五种基本的感官:听觉、触觉、嗅觉、味觉和视觉。拥有这五种模态，我们就能够感知和理解周围的世界。因此，“多模态”意味着同时结合不同的信息通道来理解我们的环境。例如，当幼儿学习单词“cat”时，他们使用不同的模态，大声说出这个单词，指着猫，发出“喵”的声音。利用人类的学习过程作为角色模型，人工智能(AI)研究人员还尝试结合不同的模态来训练深度学习模型。从表面上看，深度学习算法是基于一个神经网络，该神经网络被训练来优化一些通过所谓的损失函数在数学上定义的目标。优化，即最小化损失，是通过称为梯度下降的数值过程来完成的。因此，深度学习模型只能处理数值输入，并且只能产生数值输出。然而，在多模态任务中，我们经常面临图片或文本等非结构化数据。因此，第一个主要问题是如何用数字表示输入。关于多模态任务的第二个问题是如何准确地结合不同的模态。例如，一个典型的任务可能是训练一个深度学习模型来生成一张猫的图片。首先，计算机需要理解输入的文本“猫”，然后以某种方式将这些信息转换为特定的图像。因此，需要识别文本输入中单词之间的上下文关系和图像输出中像素之间的空间关系。对学龄前儿童来说可能很容易的事情，对电脑来说却是一个巨大的挑战。双方都必须了解“猫”这个词，它包含了动物的含义和外观。现代深度学习中的一种常见方法是生成嵌入，将猫以数字形式表示为某些潜空间中的向量。然而，为了实现这一点，近年来开发了不同的方法和算法架构。本书概述了最先进的(SOTA)多模态深度学习中使用的不同方法，以克服来自非结构化数据和组合不同模态输入的挑战。

**由于多模态模型通常使用文本和图像作为输入或输出，因此第2章将介绍自然语言处理(NLP)和计算机视觉(CV)方法作为基础。**NLP领域的方法试图处理文本数据，而CV处理的是图像处理。关于NLP(第2.1节)，一个重要的概念是所谓的词嵌入，这是当今(几乎)所有多模态深度学习架构的一个重要部分。这一概念也为基于transformer的模型奠定了基础，如BERT (Devlin等人，2018a)，它在几个NLP任务中取得了巨大的改进。特别是transformer的(自)注意力机制(Vaswani et al., 2017a)彻底改变了NLP模型，这就是为什么大多数模型都依赖transformer作为骨干。在计算机视觉(第2.2小节)中，将介绍不同的网络架构，即ResNet (He等人，2015)、EfficientNet (Tan和Le, 2019a)、SimCLR (Chen等人，2020a)和BYOL (Grill等人，2020b)。在这两个领域，比较不同的方法及其在具有挑战性的基准上的性能是非常有趣的。因此，第2章的最后2.3小节对CV和NLP的不同数据集、预训练任务和基准进行了总体概述。第二章(见3)侧重于不同的多模态架构，涵盖了文本和图像如何结合的各种各样。所提出的模型结合并改进了NLP和CV的不同方法。首先，查看Img2Text任务(第3.1小节)，介绍用于物体识别的数据集Microsoft COCO (Lin等人，2014a)和用于图像描述的网格记忆transformer (M2 transformer) (Cornia等人，2019)。相反，研究人员开发了基于短文本提示(第3.2节)的图像生成方法。完成这项任务的第一个模型是生成对抗网络(GANs) (Goodfellow等人，2014b)和变分自编码器(vae) (Kingma和Welling, 2019)。这些方法是近年来改进的，今天的SOTA transformer架构和文本引导扩散模型，如DALL-E (Ramesh et al.， 2021a)和GLIDE (Nichol et al.， 2021a)取得了显著的结果。另一个有趣的问题是如何利用图像来支持语言模型(第3.3节)。这可以通过顺序嵌入、更高级的接地嵌入或transformer内部来实现。另一方面，也可以查看支持CV模型的文本，如CLIP (Radford et al.， 2021b)、ALIGN (Jia et al.， 2021a)和Florence (Yuan et al.， 2021)(第3.4小节)。他们使用基础模型，这意味着重用模型(例如DALL-E 2中的CLIP)以及用于连接文本和图像的对比损失。此外，零样本使对新的和未见过的数据进行分类成为可能，而无需昂贵的微调。特别是用于图像分类和生成的开源架构CLIP (Radford et al.， 2021b)去年吸引了很多关注。在第二章的最后，我们会介绍一些可以同时处理文本和图像的架构(第3.5节)。例如，Data2Vec对语音、视觉和语言使用相同的学习方法，以这种方式旨在找到一种通用方法来处理一个架构中的不同模态。此外，VilBert (Lu等人，2019a)扩展了流行的BERT架构，通过实现共同注意力(co-attention)来处理图像和文本作为输入。该方法也用于谷歌的Deepmind Flamingo (Alayrac等人，2022)。此外，Flamingo旨在通过少样本学习和冻结预训练的视觉和语言模型，用单个视觉语言模型解决多个任务。

在最后一章(见4)中，介绍了能够处理文本和图像以外的模态的方法，如视频、语音或表格数据。这里的总体目标是基于挑战而不是模态找到一个通用的多模态架构。因此，人们需要处理多模态融合和对齐的问题，并决定是使用连接表示还是协调表示(第4.1节)。此外，我们将更详细地讨论如何准确地组合结构化和非结构化数据(第4.2节)。因此，将提出近年来发展起来的不同融合策略。本书通过生存分析和经济学中的两个用例说明了这一点。除此之外，另一个有趣的研究问题是如何在一个所谓的多用途模型(第4.3小节)中解决不同的任务，就像谷歌研究人员(Barham et al.， 2022)在他们的“路径”模型中所打算创建的那样。展示了多模态深度学习在艺术场景中的一个示例应用，其中DALL-E (Ramesh et al., 2021a)等图像生成模型被用于生成艺术领域的艺术作品(第4.4节)。