多模态图学习怎么用？哈佛最新《几何多模态表示学习》综述，28页pdf阐述多模态图学习在图像、语言、自然科学等应用

2022 年 9 月 8 日 专知

以图为中心的人工智能(Graph AI)在建模自然界中普遍存在的交互系统方面取得了显著的成功，从生物动力学系统到粒子物理。数据的日益异构性需要可以结合多种归纳偏差的图神经架构。然而，结合来自不同来源的数据是具有挑战性的，因为适当的归纳偏差可能因数据形态而异。多模态学习方法融合多种数据模式，同时利用跨模态依赖来解决这一挑战。在这里，我们调研了140项关于以图为中心的人工智能的研究，并意识到越来越多的数据类型使用图汇集在一起，并输入到复杂的多模态模型中。这些模型分为以图像、语言和知识为基础的多模态学习。在此基础上，我们提出了一个多模态图学习的算法蓝图。通过适当地选择四个不同的组件，该蓝图可以将处理多模态数据的最先进的架构进行分组。这一努力可以为高度复杂的现实世界问题的复杂多模态架构的标准化设计铺平道路。

基于图结构数据的大型深度学习对生物、化学、物理和社会科学的突破做出了贡献[1-7]。在许多成功的应用中，图神经网络[8]根据预定的传播方案学习图组件的表示。这些学习后的表示可以用于半监督学习[9]中的标签预测，用于无监督学习的结构重构，如链接预测[10]，以及图的设计和生成问题[11,12]。关于模型输入，图学习方法已被用于对数据集进行建模，其中图结构由节点、边和上下文信息明确给出。这些上下文信息对应于图属性(即节点和边属性)。它来自定义图类型的单一来源(例如，包含文章数据的引文网络或包含化学键信息的分子网络)。

对现实问题建模通常需要考虑来自多种类型来源(例如图像、声音、文本、化学反应等)的相同实体数据测量。多模态学习探索了如何从不同分布中采样的数据组合来执行[13]预测。尽管它在单模态方法无法学习的许多应用中取得了巨大成功[14-16]，但多模态学习遇到了限制其性能的关键挑战[17]。具体来说，已观察到多模态模型往往倾向于部分关注一部分模态，而忽略其余的模态，这种现象被称为模态坍缩[18]。此外，与常见的所有模态都可用的假设相反，噪声的存在或资源的限制可能会导致模态缺失[19,20]。上述问题在不同来源的数据(如生物序列、物理模拟和图像)合并的情况下很容易遇到，如图1所示。

图1 图为中心的多模态学习。左边显示的是本次调研中涉及的不同数据模态。右边显示的是多模态图学习用于取得进展的各个领域中的代表性任务。本文简要概述了多模态图学习(MGL)在这些模式中的应用，并介绍了MGL的蓝图。

在许多应用中，不同模态之间的依赖关系可以表达一种固有的网络结构，阻碍使用简单模态融合方法[21]的ad hoc方法的性能。最近的进展表明，图学习模型在多模态数据上的推理是成功的[22,23]。将模态依赖考虑为图边并通过学习网络结构上的表示，可以更准确地捕获它们[24,25]。特别是，在生物学和化学中，经常假设表示分子网络、蛋白质相互作用网络和蛋白质序列的图结构，这推动了基于图的多模态方法的应用[26-28]。

多模态学习和图学习联系的文献描述了通过合并在下游任务中的单模态组件处理多模态数据的架构，或利用不同模态之间的相关性的更复杂的机制。我们将这些方法组合在一个蓝图下，我们称之为多模态图学习(MGL)，在这个蓝图下，我们可以以统一的多模态方式表达现有的方法，并为新架构的设计铺平道路。如图1所示，MGL考虑了不同的输入源，从计算机视觉、语言处理到物理、化学和生物。此外，基于提出的公式，揭示了三种主要的建模图类型:1)图像密集图(IIG)用于图像和视频推理相关的任务(见第3节)，2)语言密集图(LIG)用于序列处理任务(见第4节)，最后3)知识密集图(KIG)用于物理、化学和生物任务(见第5节)。

图神经网络多模态学习

深度学习为多模态学习创造了广泛的融合方法[13,29]。例如，循环神经网络(RNN)和卷积神经网络(CNN)架构已经成功地结合在一起，在视频描述问题中融合声音和图像表示[30,31]。最近，生成模型也被证明对于语言密集的[32]和基于物理的多模态数据[33]都非常准确。这种模型基于编码器-解码器框架，其中在编码器中，组合的体系结构同时进行训练(每个专门用于一种模态)，而解码器负责聚合来自单一体系结构的信息。注意力机制也显著影响了用于数据融合的深度学习模型。通过在模型中加入注意力权重，可以学习不同模式重要性的优先级。Up-Down模型[34]利用了一组用于图像标题和视觉问题回答(VQA)的注意层组合。VQA-Machine[35]使用共同注意机制层来生成图像和问题的重要排序。最后，深度强化学习(RL)成功地解决了多模态学习问题。例如，在视频字幕任务中，基于强化学习的模型PickNet[36]依次选择信息量最大的视频帧。在视觉对话任务中，视觉和文本信息的结合激发了可以处理多模态数据的强化学习方法的设计[37,38]。通常，数据集中模态之间的复杂关系可以产生一个网络结构。图神经网络(gnn)为探索和利用多模态数据收集中可能出现的固有网络拓扑提供了一种表达力强且灵活的工具包。基于图的多模态学习是一个令人兴奋的新兴领域，它将多模态学习与图神经网络的最新进展相结合，在图像、文本、物理和许多其他应用领域取得进展[22 - 25,39]。图学习模型的使用可以发生在(1)探索连接多模态数据的网络拓扑或(2)利用已经存在的拓扑来实现不同模式之间的数据融合。例如，在[25]中，作者提出了一个多模态图学习框架，用于融合神经成像数据与生物标志物和认知测试数据，用于疾病预测。在[39]中，一个图多模态网络被建议用于解决VQA问题，其中两个模型从图像和文本生成以对象为中心的图，另一个模型匹配生成的图并学习有用的表示。在[23]中，图融合网络是一个层次图网络，它探索单模态和多模态交互。

以图为中心的多模态学习

图神经网络用于多模态学习由于其灵活地检测数据模态之间的交互作用而受到关注。通过图学习融合不同形态的信息，需要网络拓扑结构的构建和图上推理算法的应用。我们提出了一种端到端的方法，在给定多模态输入数据集合的情况下产生输出表示。我们将这种方法称为多模态图学习(MGL)。MGL可以看作是一个蓝图，由四个以端到端方式连接的学习组件组成。在图2a中，我们强调了处理多模态数据的传统单模态架构组合与建议的一体化多模态架构之间的区别。

图2 多模态图学习蓝图概述。a，多模态学习的标准方法包括组合不同的单模态架构，每个架构针对不同的数据模态进行优化。b、相反，MGL框架中的一体化多模态架构考虑了端到端模型中每个数据模态的归纳偏差，从而实现了更具表现力的数据融合。c、MGL四个组件的路线图。即将实体识别、拓扑揭示、信息传播和表示混合学习组件集成到一体化多模态蓝图中。

面向图像的多模态图学习

图像密集图(IIGs)是多模态图，其中节点表示视觉特征，边缘表示特征之间的空间联系。图像中的结构学习包含了IIGs的构建。为了了解这种结构，模型在IIGs上学习，通过修改GNN架构来编码与图像预测任务相关的归纳偏差，并融合CNNs和GNN。CNN编码与图像相关的几何先验:平移不变性和尺度分离[42]。平移不变性描述了CNN的输出如何不改变依赖于输入图像的移位，并通过共享权值的卷积滤波器实现。尺度分离描述了如何可能跨尺度分解特征之间的长期相互作用，专注于较小的局部相互作用，然后可以传播到课程尺度。池化层在CNNs中跟随卷积层实现尺度分离[42]。GNN可以模拟任意形状的远程依赖关系，这对图像相关任务[43]很重要，如图像分割[44,45]，图像恢复[46,47]，或人体物体交互[48,49]。在本节中，我们将重点介绍MGL在图像任务中的应用，以简要概述用于构建IIGs的方法，并创建模型以了解IIGs。我们根据方法的相似性将任务分成两类: 视觉理解和视觉推理。

图3 多模态图学习蓝图在图像中的应用。a，用于图像理解的模态识别，其中节点代表SLIC分割算法生成的聚集的感兴趣区域或超像素。b，图像去噪的拓扑发现，图像补丁(节点)连接到其他非局部相似的补丁。c，创建两个图的人机交互中的拓扑揭示。以人类为中心的图将身体各部分映射到它们的解剖邻居，并通过相互作用将身体各部分相对于图像中其他物体的距离连接起来。d，人-物体交互中的信息传播，其中空间条件图修改消息传递，以合并强制图像中对象的相对方向的边缘特征[50]。

面向语言的多模态图学习

随着生成上下文语言嵌入的能力，语言模型已经广泛地重塑了自然语言[7]的分析。除了单词，语言的结构还存在于句子(语法树、依赖解析)、段落(句子到句子的关系)和文档(段落到段落的关系)等层面[71]。transformer是一种流行的语言模型[72]，它可以捕获这种结构，但对计算和数据有严格的要求。MGL方法通过在模型中注入语言结构来缓解这些问题。具体来说，这些方法依赖于语言密集型图(LIGs)，显式或隐式图中节点表示由语言依赖关系链接的语义特征。本节概述构建和学习LIGs的MGL方法。

自然科学中的多模态图学习

除了语言建模和计算机视觉领域，图越来越多地应用于自然科学。我们称这些图为知识密集型图(KIGs)，因为它们对与特定应用领域相关的结构领域知识进行编码。在下一节中，我们将重点介绍MGL在自然科学，特别是物理、化学和生物学中最普遍的应用。我们描述了MGL方法如何将与特定任务相关的归纳偏差纳入到KIG建模中。

多模态图学习在自然科学中的应用。a、物理相互作用中的信息传播，其中，由于粒子间的相互作用和其他力，物理信息神经消息传递用于更新系统中粒子的状态。b，分子推理中的信息传播，使用全局注意机制来模拟两个分子中原子之间的潜在相互作用，以预测两个分子是否会发生反应。c，蛋白质建模中的拓扑发现，使用多尺度图表示将蛋白质的一级、二级和三级结构与分子超像素中总结的高级蛋白质基序集成，以表示蛋白质[27]。这种强大的拓扑结构为蛋白质-配体结合亲和力预测等任务提供了更好的预测。

专知便捷查看