什么是图神经网络的杀手级应用？

2021 年 12 月 31 日 图与推荐

作者 | 贺华瑞

❝
本文将从模型简介、应用概览、现存挑战和未来展望四部分阐述图神经网络在医药研发任务上取得的突破进展和广阔前景。
❞

GNN简介

GNN与CNN、RNN的区别

「图神经网络(Graph Neural Network, GNN)」 近年来受到许多关注，ICLR、NeurIPS、ICML等顶会上聚焦于GNN的文章也是一茬接一茬往外冒。一言以蔽之，GNN是作用于图结构数据的神经网络模型。它综合了图结构信息和节点特征信息，以得到可用于下游的分类、回归、聚类等任务的节点/图级别向量表示。

我们知道，卷积神经网络(Convolutional Neural Network, CNN) 擅长处理网格型数据(Grid)，循环神经网络(Recurrent Neural Network, RNN) 擅长处理时序型数据(Sequence)。处理的数据类型不同，因而CNN、RNN、GNN各自的用途也就有所差异。

2015年，孙剑等人基于ResNet (CNN的变体)的模型将ImageNet 2012数据集上的图像分类错误率首次降至4.94%，超越人类表现；2016年，黄学东等人基于LSTM (RNN的变体)开发的微软语音识别系统在Switchboard对话语音识别任务中首次将词错率降低至5.1%，比肩专业速记员。如果说图像分类是CNN的杀手级应用，语音识别是RNN的杀手级应用，那么我们不禁要追问，什么是GNN的杀手级应用？

GNN的应用场景

在回答上述问题之前，我们首先要明确，GNN都有哪些应用场景。可以毫不夸张地说，「凡是有图的地方，就有GNN的用武之地」。

社交媒体上，用户之间的互动关系可以用社交图表示，包括QQ、微信上的好友关系，微博、抖音上的关注关系等。在此基础上，我们可以完成谣言检测等任务。给定一则消息（如 “李佳琦偷偷补税”）和微博上相关的动态，以这些动态为节点，以动态作者之间的关注、点赞、转发等关系为边，建立关于此消息的社交传播图，GNN能据此习得图级别的向量表示，作为判断该消息真伪的依据。

线上购物时，消费者和商品之间的历史点击和交易情况可以用二分图表示。运行在二分图上的GNN不仅可以为淘宝、京东、拼多多这些电商平台向消费者推荐感兴趣的商品，也可以为豆瓣、网易云音乐等娱乐平台向用户推荐合适的影视音乐作品。

化学分子可以用分子图刻画，面向分子图的GNN可以协助科学家进行药物研发。此外，人类的知识能以(头实体, 关系, 尾实体)的结构化存储方式串联组织成庞大的知识图谱。GNN可以根据已有知识对图谱进行补全和推理。

综上，GNN至少可以应用于社交数据挖掘、推荐系统、药物研发、知识推理四大任务，那么在哪一项任务中，GNN是不可或缺的？哪一个可称为是GNN的杀手级应用呢？

为什么说药物研发是GNN的杀手级应用

依我之见，药物研发是GNN的杀手级应用。究其原因，主要有以下两点——

一是GNN的威力和价值需要在药物研发这种复杂而重要的任务中得到充分体现。将一种新药推向市场平均需要十余年时间，相关成本可能高达数十亿美元。这一漫长而昂贵的过程大致可分为四个主要步骤，即「(1)早期阶段：靶点识别和验证、HIT发现和先导优化；(2)临床前研究：原料药和制剂的药学研究、动物体内的药理药效和安全性评估；(3)临床试验I、II和III阶段；(4)监管部门审核，以及批准后的研究和监测。」现有研究证明GNN可在前两个步骤发挥作用，大幅提升研发速度，同时节省制药成本。

有人说“21 世纪是生物的世纪”，也有人说“生命科学是21世纪最活跃的学科”，Facebook某工程师说“我们这一代人中最优秀的头脑，都在思考如何让人们点击广告，这太糟糕了”。我对此深表赞同，药物研发是不同于互联网的实业，功在千秋，GNN也亟需这样一个爆点以得到进一步的关注和深入研究。

二是药物研发的诸多下游任务中缺乏像GNN这样卓有成效的工具。诸如社交数据挖掘、推荐系统和知识推理等任务，在GNN兴起之前，已有成熟的工具可予以有效处理。GNN虽然也在这些领域中体现一定的价值，但并无压倒性优势。而对于药物研发涉及的分子性质预测、分子从头设计、逆合成预测等任务来说，GNN无疑是天降神兵，在相关场景中已呈现不可或缺的趋势。在下一章节，我们将结合现存研究，按先后顺序说明GNN在制药流程中的重要作用。

GNN在药物研发中的应用

在本部分，我们将从发现病灶-->识别靶点-->生成分子-->分析分子-->制剂研究-->药理预测的完整流程中体会GNN的实际应用，并简介在老药新用的赛道上，GNN的可行思路。

确定患病区域：致病脑区预测

中医讲究“对症下药”，只有确定疾病的症结所在，才能更好地予以治疗。Li等人[2]为找出某种脑部疾病的致病区域，先将脑划分为若干个区域，然后输入GNN中学习。最后，对148块大脑区域进行可视化，线性可分的说明与致病更相关。由此，作者发现了31块较明显的线性可分的大脑区域，即在图(b)、图(c)中标记为红色的区域。

识别药物靶点：蛋白质-配体结合亲和力预测

靶点是一种与某种疾病发生发展密切相关的生物分子,如蛋白和核酸等，对这种生物分子进行干预，能够治愈或缓解与其相关的疾病。小分子的靶点识别是药物发现领域中一项重要的任务，对蛋白质-配体相互作用关系的不清楚是药物再利用和脱靶鉴定的主要障碍之一。

百度团队提出了一个基于GNN的模型SIGN（structure-aware interactive graph neural network）[3]，通过利用原子间的细粒度结构和相互作用信息来学习蛋白质-配体复合物的表征，从而更好地进行结合亲和力预测。SIGN由两部分组成：极坐标启发的图注意力层（PGAL）和成对相互作用池化（PiPool）。PGAL用来整合原子之间的距离和角度信息，进行三维空间结构建模。PiPool用来将蛋白质和配体之间的远程相互作用纳入模型中。

先导优化：从头生成目标分子

药物作用的靶点确定之后，药物化学家们需要根据靶点的空间结构，设计或者合成有作用的先导化合物。分子的从头生成非常具有挑战性，因为它不仅需要产生化学上有效的分子结构，而且还需要同时优化它们的化学性质。受深度生成模型最新进展的启发，来自Mila的唐建教授团队提出了一种基于Flow的图生成自回归模型，称为GraphAF [4]。GraphAF结合了自回归和基于Flow的方法的优点，可以高效并行计算训练，允许利用化学领域知识进行有效性检查。

分析给定分子的性质

在成功设计新的分子后，我们希望根据得到的分子表达式或分子图，进一步研究该分子的化学性质（包括水溶性和毒性等）。为此我们通常先将分子表示为三维形态，以便精确地预测分子性质。

三维分子构象生成

对于许多分子，尤其是设计出的或者未知的分子，我们很难直接得到其三维立体结构。这就需要根据低维的分子表示，预测出该分子的一个稳定的三维空间构象。Bengio团队提出CGCF [5]结合GNN和深度生成模型来尝试解决该问题。CGCF首先通过采样和变换生成初始的原子间距离矩阵，随后根据距离矩阵生成原子的坐标（即空间构象），最后通过蒙特卡洛采样算法来优化生成的构象，输出分子的三维表示。

分子性质预测

分子性质预测任务以原子三维坐标等信息为输入，来预测分子的一系列理化性质。此前，学者使用密度泛函理论(DFT)来精确预测多种分子性质，但是 DFT 非常耗时，往往需要数个小时来完成对单个分子的计算。因此，使用GNN来加速这一预测过程已成为趋势。本公众号之前有期文章专门介绍过相关方法(图神经网络在分子性质预测任务中的应用)，其中较有代表性的是德州农工大学的姬水旺教授团队提出的SphereNet [6]，成功地将三维坐标和角度等信息加入了GNN的消息传递过程中。

推荐合成路线：分子逆合成预测

经分子性质预测并对新设计的分子的理化性质有所了解后，通常我们就可以根据给定的分子进行逆向合成了。逆合成预测旨在从目标产物开始，向前逐步推导需要使用的起始原料。此前逆合成路线的设计通常需要由经验丰富的有机化学家进行长时间的查资料和实验尝试才能进行，而在GNN的帮助下，计算机可以迅速给出多条候选的逆合成方案，大大降低了实验门槛和研究时间。

唐建教授团队基于GNN提出G2Gs [7]，它将每个分子表示为一张分子图，并将逆合成预测抽象为产物图到反应物图的翻译的问题。G2Gs模型有很好的可解释性，整个框架包含两个阶段：反应中心识别和变分图翻译。反应中心识别模块把反应活性最高的原子对作为反应中心，通过断裂反应中心，将给定目标分子分割成多个合成子；而变分图翻译模块基于获得的合成子，通过一系列图变换生成最终的反应物。

药物协同预测

生成所需的药物分子后，通常会在动物体内做临床前研究，以了解药物作用的机制以及是否会和其他药物产生协同或拮抗作用等。为加速这一过程，MIT的科学家发表在PNAS上的一篇文章中提出了一种基于GNN的神经网络架构——ComboNet [8]，可以联合学习药物-靶点相互作用和药物-药物协同作用。该模型能够利用药物—靶点相互作用数据和单药抗病毒活性数据，提高协同药物组合预测准确性，并有效解决了药物组合训练数据不足的问题。实验结果表明，该模型发现了针对COVID-19的两种有效药物组合，它们在体外实验中显示出强大的抗SARS-CoV-2病毒协同作用。

其他制药场景：药物再利用

除了从头设计新分子之外，还可以通过现有药物的再利用，来减少新药研究的成本，大大加快漫长的审批过程。从历史上看，药物再利用通常有很大的偶然性，如米诺地尔原用于高血压，但后来人们发现它对毛发脱落有抑制作用，现如今米诺地尔已成为缓解脱发的标准用药。类似情况还发生在齐多夫定、西地那非、达泊西汀等药物上。

制药公司和学术研究人员日益认识到药物再利用的潜力，尤其是新冠疫情当头，全世界人民迫切希望相关药物尽快推出的情况下，药物再利用技术被寄予厚望。英国利物浦大学团队发表在Nature Review Durg Discovery期刊上的一篇综述[9]介绍了药物再利用的可行思路，其中基于通路或网络分析的方法已被广泛用于识别具有潜力的再利用药物或药物靶点。湖南大学曾湘祥教授团队在Journal of Proteome Research的封面文章中提出新冠知识图谱 [10]，为使用GNN进行新冠药物再发现提供可能。

GNN辅助制药的挑战

尽管近年来GNN在药物研发全流程上取得了很多进展，前景一片大好，但和应用在其他领域的人工智能技术一样，还存在许多问题和风险亟待解决或值得警惕。

高质量数据的可得性

大规模、高质量的训练数据是包括GNN在内的深度学习方法得以成功应用的前提，但是在医药研发任务中，量大质优的医药分子和化学反应等数据并不总是容易得到的。对于很多疾病而言，样本数量少、涉及患者隐私等问题普遍存在，这无疑是GNN应用于药物研发所面临的巨大挑战。

训练过程的可解释性

尽管图灵奖得主Yann LeCun吐槽只使用人类可理解的算法就像醉汉只在路灯下找钥匙一样可笑，但在药物研发这一人命攸关的任务中，可解释性是我们绕不过去的坎。可解释性是深度学习长久以来的难点，尤其在生化医药的背景下，输入和输出之间的复杂和非线性联系并不总是容易理解的。随着GNN在该领域应用的不断普及，评估和理解GNN方法正在做出什么决定，以及为什么做出这些决定变得越来越重要。显然，这是一项艰巨的任务，但药物化学家和数据科学家之间的合作可能会带领我们朝着更容易解释的GNN模型迈出重要一步。

预测结果的可信任性

匮乏的数据、不透明的训练、较弱的域外泛化能力都影响着预测结果的可信性。尽管整体而言，GNN能够在分子性质预测、逆合成设计、构象生成等任务的标准评测集上表现良好，但药物研发通常意味着设计新分子，这就要求模型具有很强的域外(out-of-distribution, OOD)泛化能力。为此，有文章[11]呼吁药物研发的相关模型在输出预测结果时应同时输出预测不确定度，或在决策过程中引入专家监督，从而提升预测结果的可信任性。

未来展望

作为研究人员，很欣慰看到人工智能正不断降低药物研发周期。GNN不仅可以帮助快速和轻松地识别靶点化合物，设计所需的化学结构，而且有助于建议这些分子的合成路线，预测它们的理化性质。与科学研究取得的进步相匹配的是，制药企业与人工智能科学家之间的关系日益密切，有人开始担忧随之而来的失业和实施人工智能所需的严格规定。对此，需要澄清的是，包括GNN在内的人工智能技术的初衷是把医药专家从重复的劳动中解放出来，而不是将从业人员从公司解雇出去。基于GNN等算法开发的制药系统只是为了使工作更容易，而不是完全取代人类。先进技术的出现与普及，既带来便捷，也伴随着可信性等多方面的挑战。这些挑战正需要我们拥抱变化，携手解决。

我们还不知道距离人工智能驱动药物研发的新时代还有多远，也不知道这个复杂的过程可以在多大程度上继续优化，但无疑我们已经取得很大的进展，相信在不久的将来，以GNN为代表的人工智能技术会成为制药行业的宝贵工具。

参考文献

[1]新药是如何从实验室走向市场的？----中国科学院上海药物研究所 (cas.cn)

[2] Li, Xiaoxiao, et al. "Graph embedding using infomax for ASD classification and brain functional difference detection." Medical Imaging 2020: Biomedical Applications in Molecular, Structural, and Functional Imaging. Vol. 11317. International Society for Optics and Photonics, 2020.

[3] Li, Shuangli, et al. "Structure-aware Interactive Graph Neural Networks for the Prediction of Protein-Ligand Binding Affinity." Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining. 2021.

[4] Shi, Chence, et al. "GraphAF: a Flow-based Autoregressive Model for Molecular Graph Generation." International Conference on Learning Representations. 2019.

[5] Xu, Minkai, et al. "Learning Neural Generative Dynamics for Molecular Conformation Generation." International Conference on Learning Representations. 2020.

[6] Liu, Yi et al. "Spherical Message Passing for 3d Graph Networks." arXiv preprint arXiv:2102.05013, 2021.

[7] Shi, Chence, et al. "A graph to graphs framework for retrosynthesis prediction." International Conference on Machine Learning. PMLR, 2020.

[8] Jin, Wengong, et al. "Deep learning identifies synergistic drug combinations for treating COVID-19." Proceedings of the National Academy of Sciences 118.39 (2021).

[9] Pushpakom, Sudeep, et al. "Drug repurposing: progress, challenges and recommendations." Nature reviews Drug discovery 18.1 (2019): 41-58.

[10] Zeng, Xiangxiang, et al. "Repurpose open data to discover therapeutics for COVID-19 using deep learning." Journal of proteome research 19.11 (2020): 4624-4636.

[11] Thomas, Morgan, et al. "Applications of Artificial Intelligence in Drug Design: Opportunities and Challenges." Artificial Intelligence in Drug Design (2022): 1-59.

作者简介：贺华瑞，2020年毕业于西安电子科技大学，获得工学学士学位。现于中国科学技术大学电子工程与信息科学系的 MIRA Lab 实验室攻读研究生，师从王杰教授。研究兴趣包括图表示学习与知识推理。