**导读:**如今机器学习模型的可解释性已经引起人们的广泛关注,而图机器学习作为机器学习领域的重要组成部分,其可解释性更值得人们的深入研究。GNN for Science 将科学知识融入机器学习领域,从另一方面体现了机器学习的可解释性,也可以对人们如何提高模型可解释性有所启发。 今天为大家带来的是黄文炳老师讲解的 GNN for Science 报告,主要内容包括:
Science、GNN 背景介绍 * GNN for Science 相关研究 * 最新进展——欧式等变图神经网络 * 总结
分享嘉宾|黄文炳 中国人民大学高瓴人工智能学院 助理教授 编辑整理|于文昊 北京航空航天大学 出品社区|DataFun
01****Science、GNN 背景介绍
1. AI for Science:一个新的转折点
最近几年来,人工智能领域的前沿研究主要着眼于基于大规模无标注数据的模型预训练,从 2020 年以来,GPT3、ViT、Switch Transformer 等语言、视觉模型的提出,成为当前研究的主流趋势。而 DeepMind 在 2021 年提出的 AlphaFold2 模型,也使机器学习方法在生物领域成功落地,并成为使机器学习从处理经典 AI 任务的数据(如图像和自然语言)到处理科学数据(如生物、物理领域的数据)的一个新的转折点。 DeepMind 将 AI 应用于科学领域的思想,有望成为从人工智能转变为人工专家智能的新转折点。在 2021 年末到 2022 年初,DeepMind 接连发表多篇 AI for Science 领域文章,将 AI 技术应用于传统自然科学如数学、物理、物理化学等领域,实现利用深度学习算法进行数学推理、控制核聚变、提升 DFT 的预测性能等重要突破。2. 广泛存在于科学领域的“图”(Graph)
生活中我们所说的粒子一般是指分子,分子由原子组成,而原子之间又由化学键形成连边。分子本质上是一个“图”(graph);具体在医药领域,我们生命服用的小分子药物和病毒蛋白质(属于大分子)的结合也和图上的连接的概念相似;除此之外,在天体运动过程中,我们同样可以将其看作是一个全连接图(基于它们的相互作用来建边)。将科学领域的数据建模成图数据之后,我们便可以使用处理图结构的方法(如 GNN)对这些模型进行进一步表示和分析。3. 图神经网络(GNN)是处理图数据的有效工具之一关于 GNN,和我们的直接认知所不同的一点是:最早的图神经网络并不是由机器学习领域的学者提出,而是早在 1997 年由意大利学者 A. Sperduti, et al 在 Supervised neural networks for the classification of structures 文章中作为处理图结构数据的方法提出。在那之后,最近几年(2014~2021)中,图神经网络也受到越来越多的关注。在 2022年 ICLR 的 Submission Keywords 中,“graph neural network”也排到了第三名。而发布在各个顶会上的关于 GNN 的论文量也随着年份呈指数性增长。接下来我们来简单回顾 GNN 的发展历程。2005 年,几位意大利学者 Scarselli et al. 最先提出 GNN 这个词,为 GNN 的发展起到了奠基的作用。 随后在 2014 年,LeCun 团队最先在 ICLR 引入了图卷积的概念,并且提出空间卷积和谱图卷积两种卷积网络。 从宏观上来看,我们可以从两个方面来理解图神经网络 GNN。
其中最具代表性的工作便是兼具高效性和简洁性的 GCN(Graph Convolutional Network)的提出。 由此我们可以了解到,GNN 的发展总体可以分为两个主要路线:一条是由递归神经网络路线发展而来,另一条则由图信号处理(Graph Signal Processing)路线发展而来。两条路线相互交织,最终汇聚于我们今天所要介绍的模型——消息传递模型(MPNN, Message Passing Neural Network)。4. 当前使用最广泛的 GNN 模型——MPNN
当我们有图数据需要处理的时候,往往最先想到的便是图中介绍的 MPNN。以 4 个节点的图为例,在 MPNN 中我们的任务是,对红色节点进行信息(往往是Feature 信息)的更新(Update)。 * Step 1:根据目标红色节点的邻居节点的特征以及临边的特征经过 AGG 模块进行聚合,并将得到的结果称为 message * Step 2: 用对目标红色节点通过更新函数 U 进行更新 MPNN 相对其他模型更加简单,同时概括了许多 GNN 模型的变体,所以得到了广泛的应用。但需要注意的是,GNN 并不等于MPNN,除了 MPNN 还有许多其他 GNN 模型可供使用, 例如 Maron 提出的基于几何代数方法的 GNN 模型(尽管效果上不如 MPNN),详见 Maron H, et al. Provably powerful graph networks[J]. Advances in neural information processing systems, 2019, 32. 。
02
GNN for Science 相关研究下面我们介绍国内外同行和我自己做的一些关于 GNN for Science 研究。因为时间关系,我们主要介绍 GNN 在生物医药和物理领域的相关研究。 1. GNN for Physics在讲解物理领域的 GNN 应用之前,我们需要先对经典的双摆系统进行回顾。 在双摆系统中,两个连杆在空间中摆动。在墙上有一个固定点,另外有两个自由活动的端点,其运动轨迹受两个杆的重力影响。类比双摆,我们也可以得到单摆、三摆等物理模型的概念。事实上,双摆系统作为一个混沌系统,微小的误差在若干步之后会被放大,导致其状态难以被预测。经典物理方法首先分析各点受到的重力影响、彼此之间的相互作用、几何关系(杆长不变),然后构建微分方程并对方程进行求解,从而刻画出系统的统计规律。 但是当我们把视角放在一些微观的、数量级巨大的场景,我们会发现通常的求解计算方法的复杂度会非常高。图中绘制出的的是蛋白质分子(彩色)在水分子(灰色)中的变化过程,由于微粒的动作单元往往在微秒(μs)或更小的数量级上,导致我们所需要的计算步数是巨大的,很难对大规模系统进行长时间的模拟。所以我们进一步思考,能否利用机器学习模型,直接从数据中挖掘物理系统的演化规律——即利用数据和知识驱动的方法代替传统方法对系统机型模拟呢? 首先我们将物体建模成图上的节点,将相互作用建模成图上的边,而将物体的空间状态包含在节点的特征信息中。节点的特征信息和边上的信息都会随着时间变化而变化。 从而我们可以联想到,系统的模拟过程可以进一步退化成一个 GNN 的预测任务——即根据系统的初始状态预测系统在特定的时间点的目标状态。 2020 年 Sanchez-Gonzalez et al. 等学者使用一个比较高效的 MPNN 模型实现了复杂场景的模拟。图中左侧为真实场景下水的运动过程(也是一些物理仿真器仿真所得),右侧为 GNN 预测所得的水的运动过程。事实上,作者是将水刻画成 Particle Representation(粒子表示),并将 Particles 之间的相互作用刻画成图上的连边,从而可以使用图神经网络对其进行建模,并进行 t 时刻到 t+1 时刻的预测。2. GNN for Biology and Medicine讲解完在物理领域的应用之后,我们再来介绍 GNN 在生物医药领域的应用,首先我们以新冠病毒感染人体细胞的过程为例来讲解如何进行 GNN 建模。 如图所示,新冠病毒致病机理的一个直观解释是:球状的新冠病毒上分布着一个个刺突蛋白,通过刺突蛋白和 ACE-2 受体的结合,病毒得以进入细胞并使细胞坏死,从而使器官功能受损。一个阻断致病的方法是, 驱使 Inhibitor(通常是我们人体自身的抗体或者药物抗体)去与病毒的刺突蛋白进行结合,减弱病毒感染细胞的能力。从而问题转换为,如何去设计实现“结构”上的功能和特点,从而达到我们的目的。而这里的“结构”便是我们需要去构建的图结构,进而我们可以应用 GNN 的方法去解决问题。 **在智能药物发现的过程中,许多步骤都可以抽象成图结构建模的过程,进而利用 GNN 方法来进行解决。**其中经典的任务包括靶点发现、苗头化合物的发现、引导、优化等等,它们被划分为表示、交互、生成等可以应用 GNN 解决的问题。例如将药物通过 GNN 表示成向量被称作表示任务,将药物和人体蛋白质或病毒结合被称作交互任务,以及利用抗原生成抗体的图生成过程。从机器学习角度来看,这里本质上还是应用 GNN 的模型进行建模,知识所用的数据(或者叫做 domain knowledge)有所不同。 3. 表示任务首先我们来介绍解决“表示”任务的方法。**在表示任务中,我们构建了面向大规模分子图的 GNN 预训练模型。**在预训练过程中,我们主要使用的是大规模没有标签的分子数据集,即我们并不知道这些分子的毒性、溶解性、穿透性、成药性等各项性质(标签)如何。因此,就如同我们处理无标签的图片数据一样,在分子表示学习任务中,我们着眼于在大规模的无标签数据集上进行 Self-Supervised Pre-Training 过程。 为了解决这样的预训练问题,**我们在 2020 年提出了包含了 1 亿参数,在 1 千万的无监督分子上进行预训练的 GROVER 模型,也成为当时这一任务的最大的一个模型。**** **相较于传统 MPNN 模型,增加了 Drop-Edge,G-Transformer 和预训练过程的 GROVER 模型在分子性质预测任务上有了大幅提升。4. 交互过程介绍完“表示任务”之后,我们来介绍交互(相互作用)过程如何进行建模并解决。 在相互作用过程中,服用的药物和身体的蛋白质的结合强度直接影响药物的稳定性(如果结合的太弱,会导致药物的药效打折扣),因此我们需要对结合情况——是否能结合、结合的强度怎样——进行预测。Méndez-Lucio et al. 通过对结构信息的处理实现了结合强度的预测。5. 分子生成任务接下来我们来介绍分子生成任务。 面向分子生成任务,MIT 在 2018 年提出了 JT-VAE 方法,其主要思想是用 GNN方法生成图结构(包括原子、化学键)。03
最新进展——欧式等变图神经网络虽然上述大部分的 Science 领域的任务应用现有的方法都得以解决,但仍有一些新的问题亟待解决。下面我以我们组当前的研究方向为例,对 GNN for science 的最新进展进行讲解。回顾我们刚才所介绍的内容,会发现当下所应用的大多数 GNN for science 方法只是将 Science 领域的问题建立成机器学习问题,然后再用机器学习的模型对其进行建模、分析、表示等等,但是我们并没有分析 Science 数据的特点。下面我们对 Science 数据的特点进行分析。 对于传统的图,例如社交网络,其上只存在一些 2D 的拓扑信息(连接关系),但通常不包含物理规律,即我们并不知道图上连边的意义为何。但是在科学领域的数据(原子、分子、蛋白质、细胞等)中,它们的每一个节点包含着 3D 的几何信息(位置、速度、受力、自旋等),同时更重要的是它们背后蕴含着重要的物理规律(如对称性、守恒等)。也就是说,在数据背后是存在知识的,如果跳过知识去处理数据的话,有可能会丧失一些很重要的信息。1. 物理对称性
因此之前的方法在忽略这些科学数据特点的情况下,可能违反物理的对称性或者不满足几何约束等,造成模型性能的下降。 以物理对称性为例,考虑不同视角下水分子在立方体中的运动过程。在t时刻如果对状态 进行视角的变换,即将变为 ;那么在t+1时刻, 应仍为对 进行旋转之后的结果 。 换一个例子来说,在桌子上放置一些多米诺骨牌,它们从蓝色骨牌开始相继倒下。因为它们自身只受重力过程影响,而在水平方向受力是不变的(相对于倒下的方向来说)。如果我们将场景视角旋转 90°,在理想情况下,它们仍会相继倒下;而应用现有的模型进行模拟时,我们会发现变换视角之后的粒子并不满足物理对称性,说明我们现有的 GNN 应用在物理模型中是有缺陷的。 所以需要物理对称性去诱导 GNN 的等变性(Equivariance)。等变的含义是对于一个函数而言,对其输入进行变换的结果等于对其输出进行变换的结果。类似的我们也有不变的定义,其代表对输入做任何变化,输出都不变,即: 2. 物理对称性诱导 GNN 的等变性(Equivariance)
当这种对称性体现在 GNN 上时,我们需要考虑 GNN 的不变性和等变性。除了投入更多的数据以提高性能,我们还要关注节点特征信息的不变性,以及节点坐标信息的等变性。 我们将节点信息分为特征和几何向量两个部分,并将传播聚合过程区分为(特征)信息传播聚合过程和力信息传播聚合过程。注意力信息聚合过程中需要考虑目标节点的几何信息而在(特征)信息聚合过程中则不需要包含。 下面我们介绍现有的 GNN 模型如何体现信息的等变性与不变性。在 Geometrically Equivariant Graph Neural Networks: A Survey 中,我们介绍了基于信息传播的欧式等变图神经网络的三种表示方法——不可约表示法、平凡表示法、标量化法,它们以不同的角度将对称性嵌入到 GNN 里,从而实现等变的性质。我们以容易理解的、也更有可能有广泛应用的标量化法为例进行讲解。 在讲解标量化法之前我们不可避免的要先对 EGNN 进行讲解。EGNN 和传统 MPNN 的主要区别在于,在消息传递的过程中,EGNN 除了对特征信息、距离信息(边上的信息)等标量信息进行传播之外,还把坐标的差(向量)融入两目标节点的力信息并进行传播。其优点在于将几何信息融入 GNN 中。而缺点在于,EGNN 只将径向作用进行建模,而无法刻画法向作用。而我们直到,两个粒子之间的作用通常不仅限于径向作用,考虑两个被定长杆连接的节点,它们之间除了力的作用之外还存在与杆相垂直的力矩作用,而这样的法向相互作用是 EGNN 所无法刻画的。 在我们最新提出的方法 GMN 中,使用了包含位置、速度等几何信息构成的矩阵代替单一的位置向量,从只能进行径向力的刻画转变为全方向力的刻画。从理论上我们也证明了 GMN 能够刻画 GNN 的等变性。 3. 几何约束介绍完对称性的归纳偏置之后,我们来介绍几何约束角度上的归纳偏置。最直观的几何约束是,对于长度不变的连杆,其两端的节点只能相对转动。 因此我们用广义坐标来代替笛卡尔坐标,并且各个广义坐标相互独立。这样对刚体的刻画能自然满足几何约束。 下面我们用一些简短的例子为大家呈现用 GMN 进行模拟的效果。
4. 其他工作除此之外,我们在蛋白质动力学模拟、抗体生成和优化任务上也取得了一定程度上的性能提升。 实质上,蛋白质的折叠过程背后是由着物理规律进行驱动的,所以我们可以用我们的模型对其物理过程进行模拟和预测。最后可以发现预测的误差有了明显的下降。 在抗体生成设计中,我们在给定抗原的情况下,对抗体中最重要的 CDR 序列片段进行预测。所得到的预测序列无论从氨基酸序列的匹配程度还是几何结构的重合度都比现在的方法 RefineGNN 效果要好。04
总结
最后我们可以将 GNN for Science 和传统 GNN 的区别总结为:1.从只关注 2D 拓扑到关注 1D/2D/3D/4D(时空数据)的全维度数据2.从纯数据驱动到融入科学(物理/化学/生物)知识3.从关系挖掘的应用需求到科学领域的多种应用需求4.从 ML 或 DM 领域的研究到跨学科融合的研究今天的分享就到这里,谢谢大家。
**
**
|分享嘉宾|
**
**
黄文炳
中国人民大学高瓴人工智能学院** 助理教授**
黄文炳,现为中国人民大学高瓴人工智能学院助理教授。2017年取得清华大学计算机科学与技术博士学位,2012年取得北京航空航天大学数学与应用数学学士学位。主要研究兴趣为图神经网络与图模型理论方法及其在物理系统的表示与决策、智能化学药物发现等任务上的应用。在人工智能领域顶级会议或期刊(NeurIPS、ICLR、TPAMI等)发表论文30余篇,谷歌学术引用3000余次。代表性工作包括快速图学习算法AS-GCN、深度图网络训练方法DropEdge、多体物理动力学仿真模型GMN、大规模分子图预训练网络GROVER等。