邓力、何晓冬深度解读：多模态智能未来的研究热点

2020 年 6 月 12 日 AI科技评论

作者 | 邓力、何晓冬

编辑 | 丛末

基于深度学习的机器学习方法已经在语音、文本、图像等单一模态领域取得了巨大的成功，而同时涉及到多种输入模态的多模态机器学习研究有巨大的应用前景和广泛的研究价值，成为了近年来的研究热点。

论文地址： https://arxiv.org/abs/1911.03977

近期，京东AI研究院的何晓冬博士、京东及英国剑桥大学的张超博士、和美国著名对冲基金Citadel的邓力博士和杨子超博士就这一前沿研究主题发表了题目为“Multimodal Intelligence: RepresentationLearning, Information Fusion, and Applications”的综述论文，对主要基于文本和图像处理的多模态研究，如图像字幕生成、基于文本的图像生成、视觉问答、视觉推理等方向的相关研究，从表征学习、信息融合和具体应用三个角度进行了综述和回顾，并对未来可能的研究热点进行了分析和展望。

本文作者对多模态视觉与语言信息处理及相关领域有深入研究，近年来提出过包括Image Captioning based on Deep MultimodalSimilarity Model (DMSM, 2015)、Stacked Attention Networks (SAN, 2016)、Bottom-Up and Top-Down Attention (BUTD, 2018)、及Deep Structured Semantic Models (DSSM, 2013)、Hierarchical Attention Networks (HAN, 2016) 等多个重要的模型，引用量均在一千次左右。

此次解读的这篇综述论文将于近期发表在信号处理和模式识别领域内的顶级刊物IEEE Journal of Selected Topics in SignalProcessing的最新特刊：跨语音、语言、视觉和异构信号的多模态智能深度学习 (Deep Learning for Multimodal Intelligenceacross Speech, Language, Vision, and Heterogeneous Signals) 上。这本特刊从五十多篇投稿中精选汇集了10篇高水平论文，涉及跨文本、图像、视频、语音等多模态的各种多元互补的深度学习算法。

以下为正文内容解读：

从2010年左右首先在语音识别取得重大突破开始，深度学习至今已经先后在图像识别、目标检测、机器翻译、阅读理解、对话系统等重要领域取得了巨大的成功，创造了一系列创纪录的结果和全新的研究范式，并推动了近年来人工智能研究和应用的飞速发展。虽然深度学习推动了语音、语言处理和计算机视觉等单一模态领域的巨大进步，但更多的人工智能应用场景其实同时涉及到多种模态的输入特征。例如理想的个人智能助手需要能够与人同时通过语音、肢体和图形语言等进行交流；又比如智能的医疗诊断需要同时“望、闻、问、切”，并综合许多不同项目的检测结果给出诊断结果。因此，对多模态人工智能任务相关的数学模型和训练方法进行研究具有重大的价值和广泛的意义。

基于近年来图像处理和语言理解方面的技术突破，融合图像和文本处理的多模态任务获得了广泛的关注并取得了相当大的成功，例如基于视觉的指代表达理解和短语定位、图像和视频字幕生成、视觉问答（VQA）、基于文本的图像生成、基于语言的视觉导航等。

在这些任务中，自然语言都起到了帮助机器“理解”图像内容的关键作用。这里“理解”意指发掘文本中蕴含的语义特征与视觉中蕴含的图像特征之间的相关性。除文本外，视觉还常与语音相结合，基于视频进行诸如语音识别、说话人识别、语音分离和增强等任务。论文主要关注于结合文本和图像的多模态任务，尤其是近年来一些侧重数学模型和训练方法的相关研究工作。论文主要选取了表征学习、信息融合和具体应用三个角度来分析多模态视觉与语言信息处理领域的核心问题和应用场景，具体来说：

学习输入特征的更好的表征是深度学习的核心内容。对于多模态学习，由于收集同时具有所有所需模态的数据往往并不容易，利用模型预训练技术实现例如零样本学习（zero-shot learning）或少样本学习（few-shot learning）是常用的有效策略。论文还介绍了利用有监督或无监督学习的方式来学习多模态表征的内容。
对不同模态表征的融合也是任何多模态任务的关键内容。与早先的综述工作不同，文章没有将算法按照融合阶段的不同分为早期、中期和后期融合，而是按照具体的融合操作来进行了分类，比如基于注意力机制（attention mechanism）或双线性汇总（bilinear pooling）的方法。这是因为近来流行的基于深度学习的多模态方法，几乎都可以粗略的归类为中期融合，但它们具体使用的融合操作却往往多样而且复杂。
在具体应用方面，论文主要综述了三种不同任务，包括：图像字幕生成、基于文字的图像生成，以及VQA 。这些任务一方面作为例证来说明表征学习和信息融合如何应用于具体的多模态任务，另一方面也阐述了文字和图像多模态研究的发展过程和趋势。最后，作为VQA任务的延伸，文章还包括了对视觉推理（visual reasoning）相关工作的介绍。

论文的第二章聚焦表征学习的相关内容。首先对单模态领域表征学习的发展历程和常用方法做了简单的回顾，简介了包括AlexNet、VGG、ResNet、R-CNN、Word2Vec、Glove、GPT、BERT、i-vector、d-vector、x-vector等多种常用的视觉、文本和声纹单模态表征提取方法。然后介绍了词向量可以习得句法和语义规律的性质，即用向量代数运算可以表示词汇语义间的相关性。其中一个著名的例子是vector(国王)-vector(男人)+vector(女人)可以近似得到vector(王后)。类似的还有在图像表征中发现的例子，vector(男人戴眼镜)-vector(男人)+vector(女人)=vector(女人戴眼镜)。这些都说明了表征学习具有强大的威力。

第二章接着详细回顾了多模态表征的发展历史和相关工作。早期的多模态表征工作从使用深度玻尔兹曼机进行无监督学习开始，使不同模态的输入可以映射到相同的表征空间。基于DSSM的方法则可以增强在共同表征空间中每个词语和对应图像子区域在语义上的一致性。在有监督学习方法方面，更关注于将各个模态间共有的区分性因子与每个模态内自有的生成性因子做区别处理，既能利用区分性因子改善多模态表征在区分性任务上的性能，又能利用生成性因子弥补数据中的模态缺失问题。零样本学习是计算机视觉研究中的重要问题，而将文本与图像映射到具有良好可推广性的共同表征空间，从而利用文本实现对视觉对象的学习则是零样本学习的一种有效方式。论文也回顾了多模态零样本学习的发展历程和一些有代表性的方法。最后，与零样本学习相关的，是近年来在自然语言处理中得到复兴的预训练模型的方法，论文还介绍了一些最新的将预训练的文本BERT模型扩展到文本、图像多模态处理的方法，以及基于Transformer结构直接构建多模态预训练模型的方法。

论文的第三章关注多模态信息融合。与目标为获得对多个下游任务都具有一般价值的多模态表征学习相区别，信息融合侧重于针对特定任务目标对多个单模态表征进行融合的具体结构和方法。论文中综述的所有融合方法几乎都属于中期融合，但根据具体融合操作不同，可以粗略的划分为基于拼接和线性组合等简单融合操作的方法、基于注意力机制的融合方法和基于双线性汇总的融合方法。在基于注意力机制的融合方法方面，早期的工作侧重于使用文本做查询来对图像应用注意力机制，代表性的方法包括基于编码器-解码器结构的Show, Attend, and Tell、SAN、和同时包含了双向注意力机制的BUTD等。近来，以共注意力机制（Co-attention）为代表的，在图像和文本间形成对称结构的注意力机制变得更为流行，常见的方法包括平行共注意力方法（Parallel Co-attention）、交替共注意力方法等（Alternating Co-attention）。最近，共注意力机制还被整合到多模态的BERT模型等结构中。一些其它的类似注意力的机制，如门控（Gating）、向量元素级乘法、动态权值矩阵等，也被应用于多模态信息融合。

除注意力机制外，双线性汇总也是近年来非常流行的多模态信息融合方法。与注意力机制、门控机制等基于的线性加权组合或向量元素相乘的方法不同，双线性汇总计算待融合的目标向量的外积，从而对向量间任何元素的组合都分别进行权衡并引入更多的模型参数，以实现更强大的信息融合。正因如此，双线性汇总面临的主要问题之一是如何有效计算通过向量外积引入的众多参数以避免过拟合等问题。一些流行的双线性汇总方法通过对向量外积做不同类型的低秩矩阵分解或张量分解等方式来解决这一问题。最近，双线性汇总还被与注意力机制相结合，以更好的融合序列化的多模态信息。

论文的第四章主要综述了图像字幕生成、基于文本的图像生成，以及VQA三个不同的任务。图像字幕生成要求生成一副图像对应的文本描述。传统的方法可以使用CNN检测图像内容生成对应词汇，再利用语言模型将词汇转换为完整语句。使用单一模型实现端到端字幕生成的方法，如Show and Tell、Show,Attend, and Tell等通常基于编码器-解码器（Encoder-Decoder）结构，利用编码器提取图像特征，再利用解码器从中解码生成描述文本。图像中包含的先验知识也是字幕生成需要考虑的重要因素，例如名人外貌等等，都可以作为外部知识库整合到系统中。此外，相关研究还涉及到对生成字幕的文风、内容、以及文本多样性等进行显式控制。

第四章的第二部分讨论与图像字幕生成具有相反输入输出的应用：基于文本的图像生成。在这一任务中，除早期常使用长短时记忆模型或变分自编码器外，最近的方法已普遍基于生成式对抗网络（Generative Adversarial Networks, GAN），在这种方法中，生成器读取输入文本等控制信息作为初始信号生成图像，区分器作为模型式的判定准则判定生成的图像是否足够真实。较早的方法在生成器和区分器中引入类别标签作为控制信息，不久之后研究发现可以将更一般的使用自然语言书写的语句转换为文本表征来取代类别标签控制图像生成。为了生成更真实、分辨率更高的图像，StackGAN方法使用了串行堆叠多个GAN，并通过每个GAN逐渐提高图像分辨率的策略。Progressive GAN则引入了类似课程学习（Curriculum learning）的思路，从训练一层的低分辨率生成器和区分器开始，逐渐增加两个模型的层数，从而逐步提高生成图像的精度。除生成图像的分辨率外，AttnGAN在GAN的基础上设计引入了注意力机制，以精细控制生成图片的局部细节，使之与文字描述在语义上相吻合。最后，基于这些模型，可以进一步使用语义布局等额外输入控制GAN生成更复杂的场景构图，例如Obj-GAN方法。

第四章的最后两部分综述 VQA及视觉推理任务。文章首先总结了VQA任务常用的不同定义和数据集，包含不同的问题和答案类型等。例如给定输入图像，以及用自然语言描述的关于图像内容的问题后，VQA可以定义为根据输入给出词表内某个词汇作为答案的分类任务。文章前述的信息融合方法，例如基于注意力机制或双线性汇总的方法，很多都是在VQA任务中提出的。文章也涉及了其它一些VQA研究中遇到的重要问题，如利用外部的知识库、避免训练数据中问题和答案可能存在的先验偏差、对问题和答案进行同义改写、以及让VQA能够识别图像中包含的文字等。视觉推理是在包含了复杂空间、位置、逻辑关系等问题的VQA基础上发展出来的，SAN方法一般被认为是较早的包含视觉推理的方法。在神经模块网络（ Neural Module Network, NMN）中包含若干模块化的子网络，分别对应基本操作或逻辑关系，这些子网络按照输入问题被解析器解析的结果动态组织成一个新的模型，通过在新模型上进行前向传播来实现端到端的逻辑推理。 NMN方法被广泛使用并不断改进作为其他方法的基础。文章还简介了其它一些端到端的视觉推理方法，如基于门控记忆单元和注意力机制来构造逻辑推理单元的方法，以及在视觉表征空间上通过确定性形式化推理程序进行推理的方法等。

论文的最后分别对多模态知识学习、多模态情感智能以及任务导向的大规模复杂多模态人机交互系统等前沿方向的发展进行了展望。当前已经出现了一些具有多模态信息的数据库，比如MS-Celeb-1M，其中包含了百万级世界知名人物的面部视觉信息及人物实体对应的诸如职业、生平等相关知识信息，可用来支持跨模态的知识学习并强化图像字幕生成等应用。未来，多模态知识学习可定位于从海量的视频等多模态数据中学习获得实体、行为、属性、关系等信息来构建结构化的常识知识库，从而进行一般的常识推理。这一方向涉及到的难点包括：