「多模态信息处理」前沿综述:应用、融合和预训练，京东人工智能研究院

随着视觉、听觉、语言等单模态人工智能技术的突破,让计算机拥有更接近人类理解多模态信息的能力受到研究者们的广泛关注。另一方面,随着图文社交、短视频、视频会议、直播和虚拟数字人等应用的涌现,对多模态信息处理技术提出了更高要求,同时也给多模态研究提供了海量的数据和丰富的应用场景。该文首先介绍了近期自然语言处理领域关注度较高的多模态应用,并从单模态的特征表示、多模态的特征融合阶段、融合模型的网络结构、未对齐模态和模态缺失下的多模态融合等角度综述了主流的多模态融合方法,同时也综合分析了视觉-语言跨模态预训练模型的最新进展。

http://jcip.cipsc.org.cn/CN/abstract/abstract3314.shtmt

1. 引言

人工智能研究经过70多年的探索,在视觉、语音与声学、语言理解与生成等单模态① 人工智能领域已取得了巨大的突破。特别是视觉领域的目标检测与人脸识别技术、语音领域的语音识别与语音合成技术、自然语言处理领域的机器翻译与人机对话技术在限定场景下已经实现了规模化的应用。然而,人类对周围环境的感知、对信息的获取和对知识的学习与表达都是多模态 (Multimodal)的。近些年,如何让计算机拥有更接近人类的理解和处理多模态信息的能力,进而实现高鲁棒性的推理决策成为热点问题,受到人工智能研究者的广泛关注。另一方面,随着图文社交(Facebook、Twitter、微信、微博等)、短视频(YouTube、抖音、快手)、音频(Club-音、京东、淘宝等)和数字人(2D、3D、卡通、写实、超写实等)等应用的涌现,对多模态信息处理技术在用户理解、内容理解和场景理解上提出了更高的要求, 同时也给多模态技术提供了海量的数据和丰富的应用场景。多模态信息处理技术打破计算机视觉、语音与声学、自然语言处理等学科间的壁垒,是典型的多学科交叉技术。多模态技术从20世纪70年代开始发展,Morency等人[1]将多模态技术的发展划分为四个阶段,即 1970-1980 年的行为时代 (Behavioral Era)、1980-2000 年的计算时代 (Computational Era)、2000-2010 年的交互时代(InteractionEra) 和2010年起的深度学习时代(DeepLearningEra)。多模态核心技术又分为:多模态表示(Representation),多模态融合(Fusion)、多模态转换(Translation)、多模态对齐 (Alignment)和模态协同学习 (Co-learning)类。

近些年,研究者从不同的视角对多模态信息处理技术做了很好的总结回顾。Zhang等人[2]围绕图像描述、视觉-语言生成、视觉问答和视觉推理四个应用,从计算机视觉的角度总结了多模态表示学习和多模态融合的最新进展。Summaira等人[3]的综述覆盖了更多的多模态应用,并根据应用组织了每一个多模态应用的技术进展和局限性。

本文从自然语言处理的视角出发,介绍多模态信息处理技术的最新进展,组织结构如下:第1节介绍 NLP领域关注度较高的多模态应用和相关的数据集。多模态融合是多模态信息处理的核心问题。第2节从单模态信息的表示方法、多模态信息的融合阶段、融合模型的网络结构、未对齐模态和模态缺失情况下的多模态融合等角度介绍主流的多模态融合方法。第3节介绍多模态预训练技术,并从模型的网络结构、模型的输入、预训练目标、预训练语料和下游任务等维度对比最新提出的多模态预训练模型。第4节介绍多模态技术在工业界的应用。最后一节是总结和对未来工作的展望。

2. 多模态应用

我们分析了最近两年在自然语言处理领域国际学术会议上(ACL、EMNLP、NAACL)发表的多模态信息处理的论文,并从应用的角度对论文进行了分类。关注度较高的多模态应用如图1所示。本节将对这些应用展开介绍。除此之外,多模态应用还包括视听语音识别(Audio-VisualSpeechRecognition)、多模态语言分析 (Multimodal Language Analysis)和视觉辅助的句法分析[4]等。文献[4]还获得 NAACL2021的最佳长文奖。

1.1 多模态情感识别

情感是人类区别于机器的一个重要维度,而人的情感往往又是通过语音、语言、手势、动作表情等多个模态表达的。在交互场景下,多模态情感识别研究如何从人的表情和动作手势、语音音调、语言等多模态信息中理解用户细颗粒度的情感表达,进而指导人机交互策略。其主要研究内容有:①基于多模态信息互补性和异步性的动态融合;②高噪声环境下对于模态模糊或模态缺失问题的鲁棒性融合;③客服和营销等自然交互情境下的情感识别等。多模态情感识别的常用数据集有IEMOCAP [5]、 CMU-MOSI [6]、CMU-MOSEI [7]、CH-SIMS [8] 和 IVD [9]等。数据集的多维度比较如表 1 所示。 IEMOCAP数据集收录了10位演员的表演数据,包含视频、语音、面部运动捕捉和文本模态,并标注了高兴、悲伤、恐惧和惊讶等共 9 类情感。CMUMOSI数据集收录了89位讲述者的2199条视频片段,每段视频标注了7类情感。CMU-MOSEI数据集是 CMU-MOSI的扩展版,收录了 1000 多名 YouTube主播的 3228 条视频,包括 23453 个句子,每个句子标注了7分类的情感浓度(高度负面、负面、弱负面、中性、弱正面、正面、高度正面)和6分类的情绪 (高兴、悲伤、生气、恐惧、厌恶、惊讶)。 CH-SIMS数据集是一个中文多模态情感分析数据集,该数据集为2281个视频片段标注了细颗粒度的情感标签。IVD 是从中文语音助手的真实用户对话日志中抽取的语音情感数据集,包括500000 条无标注的语音数据和2946条带6分类情感标注的语音数据。

随着图文和短视频等新兴社交媒体的迅速发展,人们在社交平台上的表达方式也变得更加丰富。社交场景下的多模态情感识别主要研究基于图文表达的情感倾向[10]和方面级的细颗粒度情感[11]等。

1.2 视觉-语言生成

视觉(图像或视频)到语言的生成和语言到视觉 (图像或视频)的生成打破了计算机视觉和自然语言处理两个领域的边界,成为多模态交叉学科中最热门的研究课题。2021 年初,OpenAI推出的基于 GPT-3的语言到视觉的生成模型 DALL-E① 可以根据自然语言的描述生成逼真的图像,产生了较大的反响。本节主要介绍视觉到语言生成的相关应用。

1.2.1 图像描述

图像描述(ImageCaptioning)是对给定的一幅自然图像生成一句自然语言描述的任务。2015年以前,图像描述的主流方法是基于模板的方法。其基本思想是检测图像中的物体、动作,并将这些词作为主语、动词和宾语等填写到预定义的模板中。从 2015年开始,基于视觉编码器(CNN 等)和语言解码器(RNN/LSTM 等)的序列到序列(Sequence-toSequence,Seq2Seq)框架广泛应用于这一任务。通过从视觉图像中解析出属性 (Attribute)、关系 (Relation)和结构(Hierarchy)等高层语义信息,并将这些语义信息融入视觉编码和语言解码中,提高了图像描述的生成效果。图像描述任务的常用数据集有 MSCOCO [12]、 Conceptual Captions [13]、 Flickr30K [14]、 Visual Genome [15]和SBUCaptions [16]。MSCOCO 数据集是微软发布的可用于目标检测(ObjectDetection)、人体姿势识别(DensePose)、关键点检测(Keypoint Detection)、实例分割(StuffSegmentation)、全景分割 (PanopticSegmentation)、图片标注 (Category Labelling)和图像描述 (ImageCaptioning)的数据集。该数据集有91类物体(人、猫和卡车等),共计 32.8 万幅图像,每幅图像包含 5 个英文描述。 ConceptualCaptions数据集收录了330万幅“图像, 描述”对,是目前最大的多模态数据集,其中的图像有自然图像、产品图像、专业照片、卡通和绘图等类型,描述取自 HTML 中的 Alt-text属性字段值。 Flickr30K 收录了来自 Flickr的共计31783幅日常活动、事件和场景的图像,每幅图像通过众包方式标注了5个图像描述。VisualGenome是基于10.8万幅图像的大规模多模态数据集,该数据集标注了 380万个对象、280万个属性、230万个关系、170万个 “图像、问题、答案”三元组和540万个区域描述。图像中的对象、属性、关系、区域描述和视觉问答中的名词与短语还被归一化到相应的 WordNet同义词集

1.2.2 视频描述

视频描述(VideoCaptioning)是对给定的一段视频(通常是几十秒的短视频)生成一句准确、细致描述的任务。视频除了图像信息外,还包括时序和声音等信息。视频描述可提取的特征更多,技术挑战也更大。视频描述任务的常用数据集有 MSR-VTT [17]、 ActivityNet-Captions [18]、YouCook2 [19] 和 ACTIONS [20] 等。MSR-VTT数据集由1万个网络视频剪辑、20万 “视频,描述”对组成。MSR-VTT数据集涵盖了音乐、游戏、体育、教育等20多个类别的视觉内容,每个视频剪辑时长10~20秒,人工为每个视频剪辑标注了20个描述句子。YouCook2数据集是一个烹饪教学视频数据集,包括89个食谱的2000个未经剪辑的教学视频(最长10分钟,平均5分钟)。ACTIONS是首个无需人工标注、从数以亿计的网页内容中自动提炼“视频, 描述”对的视频描述数据集,总共包含了163183个 GIF视频。

1.2.3 视觉叙事

视觉叙事(VisualStorytelling)要求模型对于给定的图像序列,在深度理解图像序列的基础上生成连贯的叙事故事。相比于图像描述和视频描述, 视觉叙事更具挑战性。在视觉理解上,视觉叙事的输入是有时序关联的图像序列,需要模型具备根据历史视觉事件推测当前的视觉事件的能力。在语言生成上,对比图像描述和视频描述中的客观文字描述,视觉叙事的输出由更多评价性、会话性和抽象性语言组成。SIND [21]是一个视觉叙事数据集,该数据集收集了81743幅图片,以及排列成符合文字描述和故事情节的20211个序列。

1.3 视觉问答和多模态对话

1.3.1 视觉问答

视觉问答(VisualQuestionAnswering,VQA)[22-27] 是2015年新提出的任务,简单来说就是图像问答。给定一幅图像和一个关于该图像的开放式自然语言问题,要求模型准确回答该问题。视觉问答是一个典型的多模态问题,需要模型具备物体定位、属性检测、事件分类、场景理解和推理及数学计算等能力。根据图片类型的不同,VQA 又分为自然图像理解 VQA [22-23]、合成图像推理 VQA [24]和自然图像推理 VQA [25]。表2列举了这3种 VQA的示例。 VQA常用数据集有 VQAv1/v2 [22-23]、CLEVR [24] 和 GQA [25]。VQAv1/v2是自然图像理解 VQA 数据集,VQAv2 解决了 VQAv1 中明显的语言先验 (LanguagePriors)问题。CLEVR [24]是合成图像推理问答数据集。CLEVER 中的图像由简单的几何形状的物体组成,旨在测试模型对组合式语言的理解能力和对视觉场景的推理能力。CLEVR 数据集中的图像是程序合成的,其场景的复杂度与自然场景相去甚远。对此,Hudson等人[25]发布了基于自然图像的组合式问题视觉问答数据集 GQA,该数据集包括关于11.3万幅图像的超过2000万的问题。每幅图像都标注了一个场景图(SceneGraph),表示图像中的对象、属性和关系。每个问题都对应一个功能性程序(FunctionalProgram),列出了获得答案所需执行的一系列推理步骤。每个答案都有与之对应的验证信息,指向图片中的相关区域。

1.3.2 视觉对话

视觉对话(VisualDialog)[28-32]是给定一幅图像 (或视频等视觉内容)和一个上下文相关的问题,要求模型根据图片(或视频)内容回答该问题。与视觉问答相比,视觉对话还要解决对话中特有的挑战,如共指(Co-references)和省略(Ellipsis)等。视觉对话也被认为是视觉图灵测试。视觉对话常用数据集有 VisDial [28]、IGC [29]、GuessWhat [30]、Image-Chat [31] 和 AVSD [32]。VisDial中的问题和答案都是形式自由的。GuessWhat是通过一系列“是/否”问题发现图像中的物体。IGC是一个闲聊型的视觉对话数据集,但闲聊的话题受限于给定的图像。Image-Chat 也是一个闲聊型视觉对话数据集。与IGC 不同的是,Image-Chat数据集还限定了对话参与者 A 和 B 的风格特征。AVSD 定义了一个视听场景的多轮对话任务,要求机器在理解问题、对话历史和视频中的场景等语义信息的基础上回答用户问题。视觉对话中的用户问题只与单个图像(视频)相关,且用户问题和模型回答都是文字的。

1.3.3 多模态对话

多模态对话(MultimodalDialog)关注更接近人类自然对话的多模态人机对话技术的研究。它与上一节介绍的视觉对话的主要差异有:①多模态对话给定的输入图像可能是多幅的;② 随着对话的推进,图像是不断更新的;③用户问题和模型的回答可以是文本的、图像的或者图文结合的;④模型可能需要查询外部领域知识库才能回答用户的问题 (如购物者希望看到更多与特定商品相似的商品,或者要求提供满足某些特征的商品,或者查询特定商品的属性等);⑤模型可能需要通过反问等对话策略澄清用户需求。零售和旅游等限定领域的多模态对话最近受到了越来越多的关注。常用的面向购物场景的多模态对话数据集有 MMD [33]、SIMMC [34]和JDDC [35]。MMD 是在服饰专家的指导下通过模拟扮演(Wizard-of-Oz,WoZ)的方式收集的时尚购物场景的数据集。SIMMC2.0是时尚和家具购物场景的数据集。其中,时尚和家具杂乱的购物场景是通过逼真的 VR 场景生成器 (VRSceneGenerator)生成的。与 MMD 和 SIMMC 不同,JDDC2.0是从电商平台客服和消费者之间的真实对话数据中采样的(图2)。JDDC2.0包括多模态对话24.6万,其中,图片50.7万张,平均对话轮数14轮。此外,JDDC2.0还提供了30205个商品的759种商品属性关系,共计21.9万的<商品ID、属性、属性值>三元组。视觉对话和多模态对话常用数据集的详细对比如表3所示。

1.4 多模态摘要

多模态摘要是基于对多模态输入(文本、语音、图像和视频等)的理解,归纳并生成单模态或者多模态的概括性总结(摘要)的任务。根据具体任务类型,多模态摘要又可细分为视频会议摘要[36]、教学视频摘要[37]、多模态新闻摘要[38-42]和多模态商品摘要[43]。视频会议摘要方面,Li等人[36]提出了一个从音视频会议输入中提取会议文本摘要的方法,并在 AMI数据集上验证了方法的有效性。AMI数据集[44]包含 137 场视频会议。每场会议持续 30 分钟,包含4名参与者和约300字的文本摘要。教学视频摘要方面,Palaskar等人[37]提出一种融合视觉信息和文本信息(用户生成的和语音识别系统输出的)的生成式文本摘要方法,同时在开放域教学视频数据集 How2 [45]上验证了方法的有效性。多模态新闻摘要方面,Li等人[38]提出一种从异步的多模态(文本、图像、音频和视频)输入中抽取文本摘要的方法,并发布了中文和英文数据集 MMS。 Li等人[39]提出一种为“文本,图像”对生成多模态摘要的模型,同时发布了英文数据集 MMSS。Zhu等人[41]提出了一种从异步的多模态(文本和多张图像)输入中生成多模态(一段短文和一张图片)摘要的方法,同时发布了英文数据集 MSMO。多模态商品摘要方面,Li等人[43]提出了一种从异构的多模态输入(文本、图像、商品属性表)中生成商品摘要的方法,同时发布了数据集 CEPSUM①。 CEPSUM 数据集由140万“商品文本介绍,商品图片,文本摘要”三元组组成,涉及3个商品大类。

1.5 多模态对齐

多模态对齐研究多个模态不同颗粒度元素间的对齐关系,具体又分为显式对齐和隐式对齐。视觉语言跨模态的显式对齐任务研究图像和句子[46-47]、图像和词[48]、图像中的目标和句子中的短语[49-50]间的对齐关系。多模态对齐方法可直接应用于多模态检索等应用,也可作为图像描述、VQA、多模态预训练的训练语料,尤其是在缺乏大规模多模态人工标注语料的场景。图像和句子(或文档内其他文本单元)间的显式对齐通常是不存在的。对此,Hessel等人[46]提出了一种将同一网页内的图像和句子对齐的无监督方法。该方法在7个难度不同的数据集上获得了不错的性能。Suhr等人[47]定义了一个视觉推理任务 NLVR2,对于给定的两幅图像和一段自然语言的描述,要求模型判断它们是否存在语义上的对齐关系。文本预训练语言模型已经取得了巨大的成功, 但该方法仅使用文本上下文信息作为监督信号,导致词的上下文表示学习严重依赖词的共现关系 (Co-occurrence),缺乏外部物理世界的背景知识。为了给预训练语言模型提供视觉监督信号,Tan等人[48]提出了 Vokenization技术(图3),其通过给文本中的每一个词打上一幅图像的标签,实现在大规模文本语料上自动构建多模态对齐语料库。在大规模图像-词汇对齐的多模态语料库上训练的预训练语言模型可增强其对自然语言的理解能力。实验证明,该模型在多个纯文本的任务上 (如 GLUE、 SQuAD和SWAG 等)均获得了显著的性能提高。

图像中的目标和文本中的短语对齐也被称为图像短语定位(PhraseGrounding),可用于提高图像描述、VQA、视觉导航等视觉-语言下游任务的性能。Plummer等人[49]发布了一个大规模的短语定位数据集 Flickr30kEntities,如图 4 所示。Wang 等人[50]提出了一种基于细粒度视觉和文本表示的多模态对齐框架,在 Flickr30kEntities数据集上显著提高了短语定位的性能。

视频定位(VideoGrounding)[51]是多模态对齐中另一项重要且具有挑战性的任务。给定一个查询 (Query),它要求模型从视频中定位出与查询语言对应的一个目标视频片段。该技术可应用于视频理解、视频检索和人机交互等场景。常用数据集有 CharadesSTA [52]、ActivityNet-Captions [53]和 TACoS [54]。CharadesSTA 数据集是基于 Charades数据集[55]构建的,包括 6672个视频和16128个“查询,视频片段”对。ActivityNet-Captions数据集包含两万个视频和10万个“查询,视频片段”对,其覆盖的视频类型更多样。TACoS 数据集包含127个烹饪视频和18818个“查询,视频片段”。

1.6 多模态翻译

多模态翻译是将多模态输入(文本、图像或视频等)中的源语言文本转换为目标语言文本的过程。多模态翻译的目标是在视觉等多模态信息的辅助下,消除语言的歧义,提高传统文本机器翻译系统的性能。 Elliott等人[56]于2015年首次提出多模态翻译任务。随后,在2016年举办的第一届机器翻译会议上成功组织了第一届多模态机器翻译比赛,并于接下来的两年连续举办了两届比赛,引发了研究者们对多模态机器翻译的关注热潮。目前的工作主要集中在 Multi30k数据集[57]上。该数据集是英语图像描述数据集 Flickr30k [14]的多语言扩展,每幅图像配有一个英语描述和一个德语描述,任务定义为给定图像和英语描述,生成德语描述。模型方面,Huang等人[58]首先从图像中提取视觉全局表示(参见2.1.1节的介绍)和视觉目标表示 (参见2.1.3节的介绍),提取的视觉表示被视为源语言中特殊的单词与文本拼接,再融入编码器-解码器神经网络翻译模型中的编码器中。在 Calixto等人[59]提出的模型中,视觉特征被视为源语言中特殊的单词,或者融入编码器中,或者融入解码器中。 Calixto等人的模型显著提高了模型的翻译效果。文献[58-59]中的模型依赖大量的多模态翻译对齐语料 (源语言、图像、目标语言)。对此,Elliott等人[60]将多模态机器翻译分解为两个子任务:文本翻译和基于视觉的文本表示 (Visually Grounded Representations)。该模型不依赖昂贵的(源语言、图像、目标语言)对齐语料。模型可以分别在文本翻译语料(源语言,目标语言)和图像描述(图像,源语言)语料上训练。受文献[60]的启发,Zhou等人[61]提出了一种机器翻译任务和视觉-文本共享空间 (Vision-TextSharedSpace)表示学习任务相结合的多任务多模态机器翻译框架 (VAG-NMT)。 VAG-NMT 首先把文献[60]中的基于视觉的文本表示(即从文本表示重建图像)修改为视觉-文本共享空间表示学习。其次,VAG-NMT 还提出了一种视觉文本注意机制,可以捕获与图像语义强相关的源语言中单词。多模态机器翻译中的视觉信息只在非常特殊的情况下(如文本上下文不足以消除歧义词的歧义)对翻译模型有帮助。对此,Ive等人[62]提出了一种翻译-优化 (Translate-and-refine)的两段式翻译方法。该方法先翻译源语言中的文本,再使用视觉目标表示对第一阶段的翻译文本进行调整。大多数的多模态机器翻译模型没有考虑不同模态的相对重要性,但同等对待文本和视觉信息可能会引入一些不必要的噪声。Yao 等人[63]基于 Transformer,提出了一种多模态自注意机制,探索了如何消除视觉特征中的噪音信号。一方面,单层多模态注意力模型难以有效提取视觉上下文信息,另一方面,多层多模态注意力模型容易导致过拟合,尤其是对训练数据少的多模态翻译。对此,Lin等人[64]提出一种基于动态上下文指导的胶囊网络(Dynamic Context-guidedCapsuleNetwork,DCCN)提取和利用两种不同颗粒度(视觉全局表示和视觉区域表示) 的视觉信息。也有研究者对多模态翻译的可解释性进行了探索。Wu等人[65]的研究表明,视觉特征对多模态翻译的帮助来自于正则化,视觉特征的合理选取对模型性能至关重要。

1.7 多模态信息抽取

命名实体识别(NER)是指识别自由文本中的具体特定意义的实体(如人名、地名和组织机构名等)。命名实体识别虽然取得了较大的成功,但对于社交媒体中大量的用户生成内容(User-Generated Content,UGC),仅根据文本模态的信息来定位和分类其中的实体仍然存在一些挑战。多模态命名实体识别(MNER)通过引入视觉、语音等其他模态作为文本模态的补充,识别社交媒体中高噪声短文本中的实体,最近几年受到了比较多的关注。模型方面,Moon等人[66]首次提出了融合图像和文本模态信息的通用多模态注意力模型。文献 [66]还发布了 SnapCaptions数据集,该数据集由1 万张“图像,短文本标题”对构成,并标注了短文本标题中的四类命名实体 (实体类型:PER、LOC、ORG、MISC)。一方面,文献[66]中的方法提取的是图像的视觉全局表示,这可能把图像中的噪声信息也引入到模型中。另一方面,视觉和文本模态的特征融合较简单。对此,Zhang等人[67]提出了一种自适应的协同注意力网络 (AdaptiveCo-attention Network,ACN)。ACN 首先提取图像的视觉区域表示(参见2.1.2节的介绍),再通过文本到视觉和视觉到文本的协同注意力剔除图像中的噪声信息, 以提高 MNER的性能。文献[67]在内部数据集上验证了该方法的有效性。基于类似的出发点,Lu等人[68]提出了一种注意力机制与门控机制相结合的模型提取视觉图像中与文本最相关的区域的特征。该模型可忽略不相关的视觉信息。文献[68]基于注意力机制获取了单词感知(word-aware)的视觉表示,却忽略了图像感知(image-aware)的单词表示。对此,Yu等人[69]首次将 Transformer应用于多模态 NER任务中,并提出了实体片段检测辅助任务, 进一步消除视觉偏差,提升了模型效果。 Sui等人[70]提出了融合语音和文本信息的多模态 NER,并在自建的中文数据集 CNERTA 上验证了方法的有效性。多模态信息抽取领域中另一个受到较多关注的研究方向是多模态商品属性抽取。多模态商品属性抽取是指从给定商品文本描述和商品图片中抽取商品的属性信息,例如商品的“颜色”“材料”等属性值。为了推动多模态商品属性抽取的研究,IV 等人[71] 发布了首个大规模多模态属性提取英文数据集 MAE。MAE包含400万图片和760万“属性-属性值”对。文献[71]提出的多模态属性抽取模型需要对每一个属性识别其对应的属性值,且无法滤除视觉噪声。为了提高模型的效率,Zhu等人[72]将属性预测和属性值抽取建模为一个层叠化的多任务学习过程,实现了多个属性及其对应属性值的一次性识别,且视觉全局表示和视觉区域表示通过门控机制和文本信息融合,可有效过滤视觉噪声。Zhu等人还发布了一个包含9万“属性-属性值”对的多模态商品属性抽取中文数据集 MEPAVE。

2 多模态融合

多模态融合将多个单模态表征整合成为一个多模态信息表征,它是多模态信息处理的核心问题。多模态融合的示例如图5所示,其中,Ni{i=1,…K} 表示单模态表示学习模型的模型深度,M 表示K 个多模态表示的融合模型深度。多模态融合的研究方向有:基于多模态互补性的全模态融合问题、模态模糊或者模态缺失下的鲁棒性融合问题、非对齐的多模态融合问题等。目前,大部分工作是关于模态对齐且无模态缺失情况下的多模态融合算法研究, 这也是多模态融合中最基础的挑战。本节根据单模态的特征表示、多模态融合的阶段、多模态融合的模型结构等对多模态融合方法进行分类介绍。

2.1 根据单模态表示进行分类

单模态的特征表示是多模态融合的基石。这一类方法重点研究如何在多模态融合之前提取更好的单模态特征表示。以视觉-语言-音频多模态应用为例,如何从视觉内容中解析出高层语义信息以增强视觉特征表达是这一类方法的主要研究内容。例如,从视觉内容中识别目标(Object)、属性(Attribute)、动作(Action)、关系(Relation)、场景图(Scene Graph)[73-75]和树形语义结构(Hierarchy)[76]等,进而实现对视觉内容的全局 (Global)、区域 (Regional)、目标(Object)和关系(Relation)等颗粒度的视觉语义建模。语言表示通常使用词的独热编码表示、词的上下文表示 (ContextualRepresentation)[77-78]、句子表示[79-80]、句法依存关系(Syntactic Dependency)表示[81]、场景图表示[82]等。音频表示可使用基于 COVAREP [83]提取底层声学特征表示[85]、基于预训练模型 wav2vec [84]提取低维特征向量表示[85]等。本节侧重介绍多模态融合中的视觉特征表示方法。

2.2 根据融合阶段进行分类

根据多模态融合的阶段,多模态融合方法可分为早期融合[79-82,90]、中期融合[91]和晚期融合[92]。早期融合的特点是单模态表示学习简单,而多模态融合部分的模型深度大,融合策略复杂。例如,词的独热编码表示和视觉区域表示直接参与多模态融合[93]。晚期融合的特点是单模态表示学习模型复杂,多模态融合一般采用拼接、按位乘/求平均等简单策略[92]。由于晚期融合抑制了模态之间的交互, 目前大部分基于深度学习的模型均使用早期或者中期融合。在第3节介绍的多模态预训练模型中,基于单流架构(Single-Stream)的预训练模型把融合操作放在早期阶段,如 VideoBERT [94]、UnicoderVL [95]、Oscar [96]、VL-BERT [97]和 M3P [98]等。基于双流架构(Two-Stream)的预训练模型则把融合操作放置在深层模型的中期阶段的多个层中,如 ERNIE-ViL [82]、LXMERT [91]、ActBERT [99]和 ViLBERT [100]等。

2.3 根据融合方式进行分类

多模态融合模型的设计是多模态融合的关键研究点。我们将多模态融合模型分为简单融合、门控融合(Gating)、注意力融合(Attention)、Transformer 融合、图模型融合(GraphFusion)和双线性注意力 (BilinearAttention)融合共六类方法。常见简单融合方法包括编码器、解码器的初始化(参见1.6 节和 2.1.1节)、拼接、按位乘/求和/求平均等操作。本节主要介绍其余的五类较复杂的融合方法。

3 多模态预训练

通过预训练语言模型从海量无标注数据中学习通用知识,再在下游任务上用少量的标注数据进行微调,已经成为自然语言处理领域成熟的新范式。从2019年开始,预训练语言模型(BERT [101]、GPT3 [102]、BART [117]和 T5 [118]等)相继被扩展到多语言和多模态等场景。相对于文本预训练语言模型,多模态预训练模型可以更好地对细颗粒度的多模态语义单元(词或者目标)间的相关性进行建模。例如,基于语言上下文,被掩码的词“ontopof”可以被预测为符合语法规则的词“under”或“into”等。但这与关联的图片场景“猫在车顶”不符。通过多模态预训练,模型从图像中捕获“汽车”“猫”之间的空间关系,从而可以准确地预测出掩码词是“ontopof”[82]。大部分的多模态预训练模型是在视觉-语言对齐数据上进行的。例如,使用图像和文本对齐数据集(MSCOCO [12]、ConceptualCaptions [13]、VisualGenome [15] 和 SBU Captions [16]等)训练的跨模态预训练模型 LXMERT [91]、 Oscar [96]、VL-BERT [97]和ViLBERT [100],M3P [98]。使用视频和文本对齐数据集训练的 VideoBERT [94]和 ActBERT [99]等[119-120]。Liu等人[85]最近还发布了视觉、文本、语音三模态预训练模型 OPT。本文表5中从网络结构、模型输入、预训练目标、预训练语料和下游任务等维度对比了最新的视觉-语言跨模态预训练模型 ERNIE-VIL [82]、LXMERT [91]、 LightningDOT [92]、E2E-VLP [93]、Unicoder-VL [95]、 Oscar [96]、VL-BERT [97]、M3P [98]、ViLBERT [100]、 TDEN [121]、UNIMO [122]。

表 5 中的表示 “图像,语言”对,I表示一幅图像,w=w1,…,wT 表示长度为T 的文本表示。g=g1,…,gG 是图像区域表示,q=q1,…,qK 和v=v1,…,vK 分别表示图像中的目标的文本表示和目标的视觉表示。g 和 v的提取可参考 2.1 节的介绍。此外,[SEP]、 [IMG]、[CLS]等特殊标记用来分割不同模态。 MLM(MaskedLanguage Model)是根据未掩码的词和图像区域预测掩码单词。 MOC(Masked ObjectClassification)根据未掩码的图像区域和文本预测掩码区域的目标类别。 MOR (Masked ObjectRegression)根据未掩码的图像区域和文本预测掩码区域的特征表示。 MSG (Masked SentenceGeneration)根据输入图像逐字生成句子。 VQA 根据输入的图像和该图像相关问题预测该问题的答案。CMCL 是跨模态对比学习任务。VLM 是预测图像-文本对是否语义一致。

从表5中的11个图像-语言跨模态预训练模型的对比,我们发现的跨模态预训练模型的特点如下: ①单流模型和双流模型均被广泛采用。虽然双流模型可以适应每种模态的不同处理需求,但目前尚无完整的实验证明双流模型优于单流模型。②多模态预训练模型从应用于多模态理解任务或多模态生成任务发展到可兼顾多模态理解和生成两大任务的统一模型。③相对动辄上百 G 甚至 T 级别的单模态数据,多模态对齐数据的规模有限。最新的多模态预训练模型可以利用互联网上的大规模非对齐的文本数据、图像数据、以及文本-图像对齐数据学习更通用的文本和视觉表示,以提高模型在视觉和语言的理解和生成能力,如 M3P和 UNIMO。④多模态预训练模型从仅应用于多模态下游任务发展到可同时应用于单模态下游任务和多模态下游任务。上述的多模态预训练模型需要在大量图像文本的对齐语料上进行训练。然而,此类数据的收集成本昂贵,很难扩大规模。受无监督机器翻译[123-124] 的启发,Li等人[125]提出了一种不依赖图像-文本对齐语料的预训练 U-VisualBERT,该预训练模型的输入是一批文本数据,或一批图像数据,并通过图像中物体标签作为锚点(AnchorPoints)对齐两种模态。U-VisualBERT 在四个多模态任务上取得与使用多模态对齐数据训练的预训练模型接近的性能。该方向可能会是接下来的一个研究热点。

4 结束语

多模态信息处理是一个典型的多学科交叉领域。最近几年,多模态信息处理受到自然语言处理、计算机视觉和语音与声学领域研究者的广泛关注。本文从自然语言处理的视角出发,首先介绍了目前热点的多模态应用,接着介绍了多模态的三个重要研究方向及其主流方法:即视觉的单模态表示(视觉全局表示、视觉区域表示、视觉目标表示和视觉场景图表示)、多模态融合(简单融合、门控融合、注意力融合、Transformer融合、图模型融合和双线性注意力融合)和通用的多模态预训练。最后,本文对多模态技术在产业界的应用进行了简要的描述。

多模态信息处理还有很多亟待进一步研究的课题。我们认为,以下五个方向将是多模态信息处理技术领域未来重要的研究内容:①非对齐语料上的多模态信息处理。目前,大多数下游的多模态任务和多模态预训练模态都依赖多模态对齐语料。相对动辄上百 G 甚至 T 级别的单模态语料,多模态对齐语料的规模还是很有限。探索如何在海量非对齐多模态语料上训练多模态模型具有非常实用的价值, 也是多模态领域需要重点关注的课题之一。此方向已经有了初步的探索。例如,利用多模态对齐技术将海量的单模态语料与其他模态进行自动对齐[48,122]。②面向单模态和多模态的理解和生成任务的统一模型。当前的主流模型或面向单模态理解 (或生成)或面向多模态理解(或生成)的模型,构建一个既适用于单模态理解与生成任务,又适用于多模态理解与生成任务的统一模型是未来非常重要的研究方向。多模态模型在文本任务上的性能未来可能会超过单模态模型[48,122]。③高噪声环境下的多模态鲁棒性融合。真实场景常常有较强的背景噪声,部分模态的数据通常是模糊或缺失的。因此,探索如何在高噪声情况下获得信息缺失的有效表征, 提高模型预测鲁棒性和准确性是多模态领域重要的研究课题之一。文献[116]提出一种基于缺失模态的想象网络 (Missing ModalityImagination Network,MMIN)对该方向进行了初步的探索。④ 多模态与知识的融合。2.1节介绍的从视觉内容中提取视觉粗粒度特征表示和基于视觉场景图的细颗粒度特征表示,其目的都是增强视觉特征表示。我们认为,如何提取更精细粒度的视觉特征表示是多模态领域重要的基础研究方向之一。引入知识图谱作为图像实体信息的补充,从而进行知识增强的视觉特征表示是该方向一种探索思路[126-127]。⑤复杂交互情境下的多模态应用。第1节介绍了多模态信息处理技术的多个应用场景。我们认为,数字人、元宇宙(Metaverse)是多模态信息处理技术最佳的应用场景之一,探索复杂交互情境下的多模态信息处理是多模态领域未来最重要的研究方向之一。

成为VIP会员查看完整内容