预训练模型(PTM)通过利用复杂的预训练目标和大量的模型参数,可以有效地获得无标记数据中的丰富知识。而在多模态中,PTM的发展还处于初期。根据具体模态的不同,将目前大多数的多模态PTM分为图像?文本PTM和视频?文本PTM;根据数据融合方式的不同,还可将多模态PTM分为单流模型和双流模型两类。首先,总结了常见的预训练任务和验证实验所使用的下游任务;接着,梳理了目前多模态预训练领域的常见模型,并用表格列出各个模型的下游任务以及模型的性能和实验数据比较;然后,介绍了M6(Multi-Modality to Multi-Modality Multitask Mega-transformer)模型、跨模态提示调优(CPT)模型、VideoBERT(Video Bidirectional Encoder Representations from Transformers)模型和AliceMind(Alibaba’s collection of encoder-decoders from Mind)模型在具体下游任务中的应用场景;最后,总结了多模态PTM相关工作面临的挑战以及未来可能的研究方向。随着自监督的不断发展,预训练技术在学习视觉和语言表征信息方面发挥着重要的作用。把一个已经训练好的图像分类[1]模型的参数应用到另一个类似任务上作为初始参数,类似这样训练模型的过程称作预训练。通过在大规模的未标记数据上预训练模型,并使用特定于任务的标记数据对下游任务微调[2],可以从大量的训练数据中提取尽可能多的共性特征,减轻模型对特定任务的学习负担。

随着深度学习的发展,模型的参数越来越多。要完全训练模型参数、防止产生过拟合现象,就需要使用更大的数据集,由此出现了预训练模型(Pre-Training Model, PTM)。多模态数据是指对同一个描述对象,通过不同领域或视角获取数据,并且把描述这些数据的每一个领域或视角叫作一个模态[3]。多模态预训练期望学习两种及多种模态间的关联关系,相较于单一模态预训练,可以综合获取多种信息,使得预训练模型具有更好的泛化性。虽然视觉或语言等单一模态的理解在视觉或语言任务中不可或缺,但各个模态之间的相互关系也同样重要。若多模态模型无法将相关的视觉信息和语言单词联合表征,则经过预训练的单一模态的特征在许多任务中无法实现“微调即可用”。因此,在大规模无标注的多模态数据上学习有利于下游任务关联、理解和推理的特征是非常重要的研究任务[4]。目前,多模态预训练模型仍然面临着很多挑战:1)多模态数据的数据量规模远小于自然语言语料库;2)计算机视觉任务中通常仅通过预训练提取特征,将计算机视觉模型和自然语言处理模型共同训练的情况较少,目前没有好的联合训练算法,而且训练代价非常大;3)计算机视觉任务中的对象识别,目前的类别仅有1 000类,对真实场景的覆盖率低且识别精度不高,使得预训练的输入本身存在误差;4)多模态预训练模型目前大多采用Transformer机制,代价较大,且不能确定它是否最合适建立图像‒文本、视频‒文本的关联;5)图像和视频的预训练模型不同。视频播放是有时序的,所以对视频的分割需要按照固定的时长,并且视频预训练的代价比图像和文本的预训练大很多。最近,研究者开始对多模态任务进行自我监督学习,通过对大型图像/视频和文本对预训练,然后微调下游任务。如,通过BERT(Bidirectional Encoder Representation from Transformers),VideoBERT(Video BERT)[5]从视频‒文本对中学习视频帧特征和语言标记的联合分布。ViLBERT(Vision and Language BERT)[4]和LXMERT(Learning Cross-Modality Encoder Representations from Transformers)[6]引入了双流体系结构,而VisualBERT[7]、Unicoder-VL(Universal encoder for Vision and Language by cross-modal pre-training)[8]和VL-BERT(Visual-Linguistic BERT)[9]等使用了单流体系结构,将单个Transformer应用于图像和文本。视觉‒语言预训练(Vision-Language Pre-Training, VLP)将预训练的模型应用于图像字幕和视觉问答(Visual Question Answering, VQA),并引入多任务学习和对抗训练用于进一步提高性能。

成为VIP会员查看完整内容
87

相关内容

《多模态3D场景理解》最新综述
专知会员服务
189+阅读 · 2023年10月28日
基于深度强化学习的对手建模方法研究综述
专知会员服务
81+阅读 · 2023年4月17日
视频文本预训练简述
专知会员服务
21+阅读 · 2022年7月24日
基于模型的强化学习综述
专知会员服务
143+阅读 · 2022年7月13日
视觉语言多模态预训练综述
专知会员服务
119+阅读 · 2022年7月11日
图嵌入模型综述
专知会员服务
87+阅读 · 2022年1月17日
知识增强预训练语言模型:全面综述
专知会员服务
89+阅读 · 2021年10月19日
专知会员服务
61+阅读 · 2021年8月4日
多模态预训练模型简述
专知会员服务
109+阅读 · 2021年4月27日
专知会员服务
119+阅读 · 2020年12月9日
单兵装备人机工效知识图谱构建技术
专知
4+阅读 · 2023年4月12日
基于模型的强化学习综述
专知
33+阅读 · 2022年7月13日
时空序列预测方法综述
专知
21+阅读 · 2020年10月19日
实体关系抽取方法研究综述
专知
11+阅读 · 2020年7月19日
对比自监督学习
深度学习自然语言处理
34+阅读 · 2020年7月15日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
层级强化学习概念简介
CreateAMind
17+阅读 · 2019年6月9日
基于逆强化学习的示教学习方法综述
计算机研究与发展
15+阅读 · 2019年2月25日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
38+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
41+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
15+阅读 · 2008年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
147+阅读 · 2023年3月24日
Arxiv
68+阅读 · 2022年9月7日
VIP会员
相关VIP内容
《多模态3D场景理解》最新综述
专知会员服务
189+阅读 · 2023年10月28日
基于深度强化学习的对手建模方法研究综述
专知会员服务
81+阅读 · 2023年4月17日
视频文本预训练简述
专知会员服务
21+阅读 · 2022年7月24日
基于模型的强化学习综述
专知会员服务
143+阅读 · 2022年7月13日
视觉语言多模态预训练综述
专知会员服务
119+阅读 · 2022年7月11日
图嵌入模型综述
专知会员服务
87+阅读 · 2022年1月17日
知识增强预训练语言模型:全面综述
专知会员服务
89+阅读 · 2021年10月19日
专知会员服务
61+阅读 · 2021年8月4日
多模态预训练模型简述
专知会员服务
109+阅读 · 2021年4月27日
专知会员服务
119+阅读 · 2020年12月9日
相关资讯
单兵装备人机工效知识图谱构建技术
专知
4+阅读 · 2023年4月12日
基于模型的强化学习综述
专知
33+阅读 · 2022年7月13日
时空序列预测方法综述
专知
21+阅读 · 2020年10月19日
实体关系抽取方法研究综述
专知
11+阅读 · 2020年7月19日
对比自监督学习
深度学习自然语言处理
34+阅读 · 2020年7月15日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
层级强化学习概念简介
CreateAMind
17+阅读 · 2019年6月9日
基于逆强化学习的示教学习方法综述
计算机研究与发展
15+阅读 · 2019年2月25日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
38+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
41+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
15+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员