几何图神经网络在百度生物计算平台的应用

会员服务 ·

几何图神经网络在百度生物计算平台的应用

2022 年 10 月 28 日 专知

进群看直播.gif

导读：本次分享的主题是几何图神经网络在药物发现中的应用。主要包括以下几部分内容：

百度生物计算平台简介
基于3D空间结构的药物亲和力预测
基于几何图神经网络的小分子性质预测

分享嘉宾｜周景博博士百度研究院资深研究员

编辑整理｜王龙飞

出品平台｜DataFunTalk

百度生物平台简介

1. 生物医药行业面临的挑战

生物计算从2020年开始成为一个非常热门的方向。在过去半个世纪的时间里，生物经济市场规模不断扩大，其中最重要的投入就是制药业。但是我们也看到制药的投入产出比是不断下降的，因为靶点和小分子都已经被进行了充分的挖掘，近10年每十亿美金投入产出的药物数量发生了显著的下降。

从巨大的化合物空间筛选出一个潜在的药物分子出来，是机器学习最有可能提升的阶段。直接做计算的仿真或者化学生物实验，都面临耗时长，成本高的问题。如何用机器学习的模型，来更快的找到潜在的小分子化合物，就能够降低临床前的研发成本，从而降低整个生物制药的投入产出比。

2. 螺旋桨PaddleHelix生物计算平台

百度从2020年开始布局生物计算这个方向，重点建设螺旋桨（PaddleHelix）生物计算平台。其底层基于百度自研的深度学习框架PaddlePaddle。我们已经开源了多个工具包，例如药物筛选、ADMET、分子生成、蛋白结构预测、多蛋白相互作用、mRNA序列设计、药物重定向等等。

3. 生物计算的主要研究对象

化合物

第一类就是化合物，也就是小分子药物。

DNA、RNA

第二类是在基因层面，DNA或者RNA。

蛋白质

第三类就是蛋白质，涉及到宏观的大分子的层面。它的分子数量达到上万甚至几十万，远大于化合物的分子量。

这三种数据对于做机器学习来说并不是很陌生，不管是化合物、DNA、RNA还是蛋白质，都可以表示成序列的形式。但是生物数据的几何构型也发挥了非常大的作用，比如像小分子化合物，它们的几何构型可能是类似的，但是由于手性对称、顺式/反式对称等都会导致化合物呈现不同的属性。对于蛋白质也是，蛋白质的功能也是通过几何构型来体现的。所以，我们用机器学习的方式来做生物制药的研究，就要考虑用机器学习的模型更好地建模生物学的数据。

4. GNNs with geometric and topological information

Graph Convolution是最流行的机器学习算子，它相对于Convolution最大的改进就是在图结构上进行卷积操作。但是Graph Convolution有一个明显的问题就是几何结构不敏感。Graph Convolution主要的考虑的是图的拓扑信息，比如说这两个节点交换位置，GNN会认为输入是一样的。这对建模分子会产生非常严重的问题。两个分子有不同的构型，不同的构型会产生不同的性质，如果我们认为他们是相同的输入，对应模型的表现会产生非常大的影响。

如上图例子，以一个分子作为坐标原点，周围还有两个相连接的分子，我们希望这个分子图的结构信息能保留，此外如果我们直接将相关的相对位置信息进行建模，坐标系进行旋转，它们在坐标系中的取值是不一样的，但是整个分子是没有发生任何变化的。所以我们在进行建模的时候直接encoder spatial information是不行的，还需要考虑这种结构不变性的关系。我们要保证，在表征分子空间信息的时候是几何变换无关的，不能因为坐标系的变化导致整个数据输入发生变化。

这个问题的解决方案大概分为两种：

一个是Equivariant Neural Networks（等变神经网络），这两年有非常多的进展，从2018年开始获得了比较多的关注。简单来讲，等变神经网络就要求对Convolution和Transform要求是等价的，先做Transform再做Convolution还是先做Convolution再做Transform，要求取得的结果是一样的，这样就可以保证几何结构不变性。

另外一个就是Geometric encoded message passing，即通过Geometric Encoding的方式来提升GNN的Message Passing，想办法encode相关的几何结构信息来提升在生物数据建模方面的表现。我后面的工作主要是在沿着第二个方向（Geometric Encoded Message Passing）来做的。

基于3D空间结构的药物亲和力预测

参考文献："Structure-aware Interactive Graph Neural Networks for the Prediction of Protein-Ligand Binding Affinity”; KDD 2021.

1. Background

虚拟筛选

虚拟筛选指的是通过虚拟的方式事先过滤一些小分子。比如，发现一个靶点后，希望有一个药物跟靶点相结合，进而改变后续下游的生理过程，从而使相关疾病能够被克服掉。一个挑战性的问题是，靶点被发现后，如何找到合适的药物。整个药物分子的空间非常巨大，真正做实验非常耗时且成本非常高。如果能用机器学习的方式，在给定靶点的结构和小分子结构之后，预测出它们两个的亲和力的大小，那么可以加快后续的药物实验和临床实验的效率。

Protein-Ligand Binding Affinity

所以，我们这方面的研究目标是，如何预测protein和ligand之间的结合力的强弱。这里相对于其他已有的研究工作，我们着重于利用蛋白质和分子的三维结构信息。

Structure-based Binding Affinity Prediction

在过去几十年的时间里，亲和力预测也获得了非常多的关注，但是主流的方法可以分为4类：

①1D-CNN的方式，按照分子和氨基酸的序列来建模；

②按照特征抽取的方式，通过深度学习模型，比如决策树、GBDT、SVM等来预测；

③按照3D-CNN的方式，将整个蛋白质口袋和药物结合的位置做切割，利用类似3D grid 的model，像图片处理一样用卷积的方式选表征；

④用图神经网络的方式，来提升预测的准确度。

Complex Interaction Graph Construction

对于GNN的使用，如果想提高准确度，我们主要考虑两个信息，一个是距离信息，需要encode任意两个点之间的相对距离；第二个是角度信息，我们要建模2个原子之间或者3个原子之间形成的键位角。此外，我们也考虑两种不同的键长，一种是共价键，另外一种是非共价键，在原子距离不是很近但也不是很远情况下也存在作用力，主要体现在范德华力。

2. The Proposed Model

Structure-aware Interactive Graph Neural Network (SIGN)

这个是我们的框架。

Polar Coordinate-Inspired Graph Attention

我们首先建立极坐标体系，将原子和它的邻居节点投影到平面上，然后我们会看到这条边和它的邻居的夹角。其次，我们做了离散化，包括角度离散化和距离离散化。对角度离散化，是按照投影角在[0-180]度区间的等分；另外一个是按照距离做离散化，我们按照1埃米的单位画成同心圆，就像太阳系的不同的行星一样，在不同的轨道上会产生不同性质的影响。

第三个我们还引入了一个方法，就是node-edge的interaction，来提升模型的表现。

现在简单介绍下如何做角度的离散化。对于一条边ai和aj，我们把它当成中心法线，然后看它在圆锥曲面里和邻居边是什么样子的，这个卷积会定义一个虚拟节点，让所有在圆锥面里的边形成虚拟节点来做卷积，进而在每一个圆锥平面都会定义虚拟节点。最后将虚拟节点进行二次聚合，学习一个global的信息。我们希望在建模的时候，能够将不同的角度信息包含到表征学习的过程中。聚合的过程，首先会在每一个sector来学一个聚合的表征，最后会做一个global的aggregation，进而学习edge的表征。

Distance也是类似的，我们会学每个distance，在不同的distance情况下我们认为表征是不一样的，这里我们引入attention机制，按照不同的level和不同的权重聚合到中心节点上，然后将两个表征融合到一起来生成一个节点的表征，做下游的预测任务。

3. Experimental Results

这个是我们做的一个实验。

Datasets

这个数据集PDBbind是一个公开的benchmark，来做预测的，总共有3个set，一个是general set有13283个，refined set有4057个，core set有290个。此外还有另外一个数据集CSAR-HiQ，来做额外附加的验证。

Baselines

Comparison with baselines

从实验结果可以看出，相对于其他已有模型有一个不错的提升。

Impact of Spatial and Interactive Factors

这里消融实验可以证明一下在不同的模块对模型的提升，可以看到不管是考虑spatial factor还是单纯地考虑distance和angle，对模型的贡献比较显著的。

4. Conclusion

总结一下，这个工作是考虑如何用3D结构来学习protein-ligand之间的表征，进而来做binding affinity预测。方法主要的两点，一个引入极坐标这种建模方式，将两个原子之间的距离和角度信息能够考虑到整个message passing过程中，另外就是引入节点间的交互信息来提升模型的表征。

基于几何图神经网络的小分子性质预测

接下来讲一下如何将几何学习方式应用到小分子性质预测上，主要研究对象是小分子。

1. 几何对比学习

参考文献："GeomGCL: Geometric Graph Contrastive Learning for Molecular Property Prediction”; AAAI 2022.

（1）背景

Molecular Property Prediction

小分子性质预测，其实主要是学习小分子表征，预测小分子的各种性质，比如是否有毒，水溶性如何，在前期的药物筛选中发挥非常大的作用。

Graph Representation Learning for Molecules

对于小分子预测存在的问题，主要有两点，一个是数据的稀疏性，特别是label的稀疏性，小分子的数据并不稀疏，现在已有的库有上亿个小分子结构，但是有标签的数据是很少的；第二个是如何利用分子结构的几何信息来学习，这是模型层面需要考虑的问题。将这两者相结合，我们提出了基于自监督的方式来做图的表征学习。

Geometrics Structure Learning on Graphs

首先，就是如何构建graph，这里我们提出了在2D和3D空间都用极坐标方式来建模一个分子的表征，在三维空间中做投影，在二维空间中直接用分子的表达式，来学习不同的表征，模型跟前面是类似的。

Contrastive Learning on Graphs

第二，是在分子图上做对比学习。已有的工作主要是在分子上做一些相关的操作，比如把一些节点删除或者把一些边随机做替换，这个其实会破坏分子的化学规则。这里我们采用的对比学习方法思想是，是在不同的view下生成的图化学性质上应当是一样的。也就是说，对同一个分子式，我们会生成不同的2D view和3D view的graph，即使是同一个3D view用不同的能量函数得到的构象也可能是不同的。

Geometric Graph Contrastive Learning

这就是我们整体的框架。

Overall Framework for GeomGCL

主要分两部分，上一部分是用2D view graph来学习分子表征，另外一个是用3D view graph来学习分子表征，用的方式跟前面介绍的方式是类似的。

第二个就是我们引入了contrastive learning的方式，来学习两个节点之间损失函数，来训练和优化模型。

Geometry-based RBF Encoding

这个就是前面讲的，在2D view graph下local distance及2D angle和在3D view graph下global distance及3D angle来分别学习对应的表征。

Adaptive Geometric Message Passing Scheme

引入Geometry-enhanced contrastive learning，简单来讲，不管是2D view还是3D view，如果它们是来自同一个SMILES结构，应该具有相似的表征，如果是不同的分子，它们的表征会有比较大的差别。这里我们引入了contrastive loss，此外，我们加了一些额外的限制，比如引入了spatial regularized constraint，也就是它在迭代时波动不要太大，让模型表现比较稳定。

（2）Experimental Results

Dataset

Baselines

我们通过实验，对比了三种不同的方式，三种不同的baseline，一个是正常的message passing methods，一个是考虑几何信息的geometry-based GNNs，另外一个是比较流行的Graph Contrastive Learning的方法。

Comparison with baselines

首先，已有的方法，如DimeNet、SGCN，它们考虑的是one-side的geometric information，也就是只考虑的是2D的或者3D的graph view。

另外一类方法，就是常见的contrastive learning的方式，但是它们很少考虑化学规则的限制，像前面讲的node或者边的随机的排列和替换。比如InfoGraph和MoCL。

所以，我们的方法既考虑到不同view的structure的信息，同时不会违反化学基础规则，会为模型带来显著的提升。

另外，通过消融实验，我们可以看到这种2D和3D geometric contrastive方法会提升整个模型的表现。

这是我们做的可视化的结果，可以看到自监督学习学习到的表征的差异，即使对于同一种分子，在2D-view和3D-view下既有一些相似性，又有一些不同。所以我们用一下contrastive的方法能够学习这两者信息之间的共性和差异，来提升模型的表现。

（3）Conclusion

Summary of our work

这个工作，我们设计了一种dual-channel的Geometric Message Passing的方式来学习同一个分子在2D和3D view下结构上的信息；进而通过contrastive learning的方式来学习小分子的表征。此外，我们通过实验的方式做了不同的downstream task来验证实验结果的有效性。

2. 空间结构增强的分子表征学习

参考文献："Geometry Enhanced Molecular Representation Learning for Property Prediction”; Nature Machine Intelligence 2022

在此基础上简单讲一下在分子预训练方面的一些工作：

化合物表征模型GEM

基于小分子数据构建大规模预训练模型是当前的研究热点。但是已有的方法存在两个问题。首先，没有考虑化合物分子的空间构象，例如同分异构体，一样的拓扑结构，但其有不同的三维空间结构。比如对于癌症治疗，顺铂和反铂，顺铂可以做药物癌症的化疗的，反铂没有这种效果，它们在小分子二维图上结构是完全一样的，但是在三维空间构象上是不一样的。所以如果我们单独基于这种分子图的表示学习，可能会存在潜在的挑战。

第二个在模型构建上，只考虑节点级别和图级别一种类型的自监督学习任务，其实在图的构建方面可以有更多的可以探索的空间。

最近我们在《Nature Machine Intelligence》上发表的如何将化合物的几何结构来融入到图的构建里，设计多种任务的自监督的预训练策略来提升我们对小分子的表征学习的效果。我们的创新有两点，一个是基于空间结构的图神经网络，通过对偶图的方式实现；另外一个是设计了多个面向几何特征的自监督学习任务。一个是随机的mask原子，预测丢失的原子是什么样子的。另外一个是随机mask一条边，预测两个点之间边的距离长度，或者三个节点形成的角度有多大。此外我们也做了一个global mask，预测任意两个节点之间的距离。通过这种自监督学习，我们可以pretrain一个图神经网络，进而用于下游任务上。

我们在14个benchmark上做了一些测试，有12个取得了比较显著的提升，这也证明了通过自监督的方式和预训练的方式可以提升模型的表现，这也是我们引入几何表示的方式显著的提升图表示学习的效果。

结语

最后，简单介绍一下我们现在建设的平台和系统。一个是开源代码库，在https://github.com/PaddlePaddle/PaddleHelix上，我们近期上线了包括药物虚拟筛选、ADMET成药性预测、DTI药物靶点亲和力预测、PPI蛋白-蛋白相互作用、蛋白结构预测等工具的代码；另外是我们正在搭建的一个平台，在网站paddlehelix.baidu.com上。用户可以直接在网站上传氨基酸序列或者氨基酸结构，然后我们直接返回预测结果，这个更多的直接面向生物医药研究人员，能够直接使用。

今天的分享就到这里，谢谢大家。

｜分享嘉宾｜

周景博博士

百度研究院资深研究员

周景博，现任百度研究院商业智能实验室资深研究员，主要从事数据挖掘和机器学习相关的研究和应用工作, 包括时空数据挖掘、深度几何学习和知识图谱等。2014年从新加坡国立大学获得博士学位，并于2015年加入百度研究院。他目前已经有超过30余篇论文发表在计算机顶级会议和期刊上，包括KDD, SIGMOD, ICDE, AAAI, TKDE和Lancet Public Health，Nature Machine Intelligence等，并常年担任KDD, AAAI, IJCAI, ACL, CIKM, TKDE, VLDBJ等顶级学术会议和期刊的程序委员会委员和审稿人。他作为组委会核心负责人之一承办了KDDCup 2022机器学习竞赛并担任出题人。

专知便捷查看