多模态预训练模型综述

预训练模型（PTM）通过利用复杂的预训练目标和大量的模型参数，可以有效地获得无标记数据中的丰富知识。而在多模态中，PTM的发展还处于初期。根据具体模态的不同，将目前大多数的多模态PTM分为图像?文本PTM和视频?文本PTM；根据数据融合方式的不同，还可将多模态PTM分为单流模型和双流模型两类。首先，总结了常见的预训练任务和验证实验所使用的下游任务；接着，梳理了目前多模态预训练领域的常见模型，并用表格列出各个模型的下游任务以及模型的性能和实验数据比较；然后，介绍了M6（Multi-Modality to Multi-Modality Multitask Mega-transformer）模型、跨模态提示调优（CPT）模型、VideoBERT（Video Bidirectional Encoder Representations from Transformers）模型和AliceMind（Alibaba’s collection of encoder-decoders from Mind）模型在具体下游任务中的应用场景；最后，总结了多模态PTM相关工作面临的挑战以及未来可能的研究方向。随着自监督的不断发展，预训练技术在学习视觉和语言表征信息方面发挥着重要的作用。把一个已经训练好的图像分类［1］模型的参数应用到另一个类似任务上作为初始参数，类似这样训练模型的过程称作预训练。通过在大规模的未标记数据上预训练模型，并使用特定于任务的标记数据对下游任务微调［2］，可以从大量的训练数据中提取尽可能多的共性特征，减轻模型对特定任务的学习负担。

随着深度学习的发展，模型的参数越来越多。要完全训练模型参数、防止产生过拟合现象，就需要使用更大的数据集，由此出现了预训练模型（Pre-Training Model， PTM）。多模态数据是指对同一个描述对象，通过不同领域或视角获取数据，并且把描述这些数据的每一个领域或视角叫作一个模态［3］。多模态预训练期望学习两种及多种模态间的关联关系，相较于单一模态预训练，可以综合获取多种信息，使得预训练模型具有更好的泛化性。虽然视觉或语言等单一模态的理解在视觉或语言任务中不可或缺，但各个模态之间的相互关系也同样重要。若多模态模型无法将相关的视觉信息和语言单词联合表征，则经过预训练的单一模态的特征在许多任务中无法实现“微调即可用”。因此，在大规模无标注的多模态数据上学习有利于下游任务关联、理解和推理的特征是非常重要的研究任务［4］。目前，多模态预训练模型仍然面临着很多挑战：1）多模态数据的数据量规模远小于自然语言语料库；2）计算机视觉任务中通常仅通过预训练提取特征，将计算机视觉模型和自然语言处理模型共同训练的情况较少，目前没有好的联合训练算法，而且训练代价非常大；3）计算机视觉任务中的对象识别，目前的类别仅有1 000类，对真实场景的覆盖率低且识别精度不高，使得预训练的输入本身存在误差；4）多模态预训练模型目前大多采用Transformer机制，代价较大，且不能确定它是否最合适建立图像‒文本、视频‒文本的关联；5）图像和视频的预训练模型不同。视频播放是有时序的，所以对视频的分割需要按照固定的时长，并且视频预训练的代价比图像和文本的预训练大很多。最近，研究者开始对多模态任务进行自我监督学习，通过对大型图像/视频和文本对预训练，然后微调下游任务。如，通过BERT（Bidirectional Encoder Representation from Transformers），VideoBERT（Video BERT）［5］从视频‒文本对中学习视频帧特征和语言标记的联合分布。ViLBERT（Vision and Language BERT）［4］和LXMERT（Learning Cross-Modality Encoder Representations from Transformers）［6］引入了双流体系结构，而VisualBERT［7］、Unicoder-VL（Universal encoder for Vision and Language by cross-modal pre-training）［8］和VL-BERT（Visual-Linguistic BERT）［9］等使用了单流体系结构，将单个Transformer应用于图像和文本。视觉‒语言预训练（Vision-Language Pre-Training， VLP）将预训练的模型应用于图像字幕和视觉问答（Visual Question Answering， VQA），并引入多任务学习和对抗训练用于进一步提高性能。