论文链接:
https://arxiv.org/abs/2012.15409
GitHub链接:
https://github.com/PaddlePaddle/Research/tree/master/NLP/UNIMO
近年来,预训练技术在计算机视觉和自然语言处理领域均受到广泛关注。在视觉领域,基于图像数据的单模预训练有效提升了视觉特征的提取能力。在自然语言处理领域,基于自监督的预训练语言模型则利用大规模的单模文本数据,显著提升了模型的语言表示能力。为了处理多模场景的任务,多模预训练模型基于多模图文对数据进行预训练,从而有效支持下游的多模任务。然而,受限于图文对数据量,多模预训练模型通用性欠佳。
基于深度学习的AI系统能否像人一样同时学习各类异构模态数据,包括文本、图像等单模数据,以及图文对等多模数据呢?如果能够实现,无疑将进一步拓展深度学习对大规模数据利用的边界,从而进一步提升AI系统的感知与认知能力以及AI算法的通用性。针对这一问题,本文提出统一模态学习UNIMO,同时利用大规模单模文本、单模图像以及多模图文对数据进行联合学习,通过跨模态对比学习方法,有效地对语言知识与视觉知识进行统一表示和相互增强,从而具备同时处理多种单模态和多模态下游任务的能力。
UNIMO在语言理解与生成、多模理解与生成等四类场景共十多个任务上超越主流的文本预训练模型和多模预训练模型,首次验证了通过非平行的文本与图像单模数据,能够让语言知识与视觉知识相互增强。UNIMO也同时登顶了视觉问答VQA和文本推理aNLI权威榜单。