最新「图机器学习药物发现」综述论文，22页pdf245篇文献

图机器学习(GML)因其建模生物分子结构、它们之间的功能关系以及整合多组数据集的能力而受到制药和生物技术行业越来越多的关注。在此，我们提出了一个关于药物发现和研发多学科的学术-工业综述的主题。在介绍了关键术语和建模方法之后，我们按时间顺序介绍了药物开发流程，以确定和总结工作包括: 靶标识别、小分子和生物制剂的设计，以及药物的重新利用。尽管该领域仍处于新兴阶段，但关键的里程碑，包括重新用途的药物进入体内研究，表明GML将成为生物医学机器学习的建模框架选择。

引言

从药物发现到上市，平均超过10亿美元，可能持续12年或更长时间[1 - 3]; 由于高流失率，很少有人能在10年内进入市场[4,5]。整个过程的高损耗不仅使投资不确定，而且需要市场批准的药物为早期的失败买单。尽管在过去十多年里，整个行业都在关注效率问题，同时也受到了一些出版物和年度报告的推动，这些报告强调了终结排他性和生产率下降会导致收入下降，但事实证明，在科学、技术和监管变革的背景下，明显的改善是难以实现的。由于上述原因，现在人们对运用计算方法来加快药物发现和研发管道[6]的各个部分更感兴趣，见图1。

数字技术已经改变了产生大量数据的药物研发过程。变化范围从电子实验室笔记本[7]，电子法规提交，通过增加实验室、实验和临床试验数据收集[8]，包括设备的使用[9,10]，到精准医疗和“大数据”[11]的使用。收集到的关于治疗的数据远远超出了研发范围，包括医院、专家和初级保健医疗专业人员的患者记录——包括从社交媒体上获取的观察数据，例如药物警戒数据[12,13]。通过可重复使用药物的数据库，有无数的在线数据库和其他信息来源，包括科学文献、临床试验信息[14,15]。技术的进步现在允许更大的组学分析，而不仅仅是基因分型和全基因组测序(WGS);微流体技术和抗体标记的标准化使得单细胞技术广泛应用于转录组的研究，例如使用RNA-seq[16]，蛋白质组(靶向)，例如通过大量细胞检测[17]，甚至多种方式结合[18]。

在药物发现过程中产生和使用的生物医学数据的关键特征之一是其相互关联的性质。这种数据结构可以用图表示，这是一种数学抽象，在生物学的各个学科和领域中广泛使用，以模拟在不同尺度上进行干预的生物实体之间的各种相互作用。在分子尺度上，蛋白质和其他生物分子的氨基酸残基[19,20]和小分子药物的组成原子和化学键结构[21,22]可以用图表示。在中间尺度上，相互作用组是捕获生物分子物种(如代谢物、mRNA、蛋白质)[23]之间特定类型相互作用的图，其中蛋白质-蛋白质相互作用(PPI)图可能是最常见的。最后，在更高的抽象层次上，知识图谱可以表示电子病历(EMR)中药物、副作用、诊断、相关治疗和检测结果之间的复杂关系[24,25]。

在过去的十年里，两个新兴趋势重塑了数据建模社区: 网络分析和深度学习。“网络医学”范式早已在生物医学领域[26]得到认可，借用了图论和复杂网络科学的多种方法，运用于生物图，如PPIs和基因调控网络(GRNs)。这一领域的大多数方法都局限于手工绘制的图特征，如中心性度量和聚类。相比之下，深度神经网络是一种特殊的机器学习算法，用于学习最优的特定任务特征。深度学习的影响在计算机视觉[27]和自然语言处理[28]方面具有开创性，但受限于对数据结构规律性的要求，局限于特定领域。在这两个领域的收敛处是图机器学习(GML)，这是一类利用图和其他不规则数据集(点云、网格、流形等)的结构的新ML方法。

GML方法的基本思想是学习节点29,30、边(如预测推荐系统中的未来交互)或整个图31的有效特征表示。特别是，图神经网络(GNN)[32-34]，它是专为图结构数据设计的深度神经网络体系结构，正引起越来越多的兴趣。GNN通过传播邻近节点的信息来迭代更新图中节点的特征。这些方法已经成功地应用于各种任务和领域，如社交媒体和电子商务中的推荐[35-38]，谷歌地图[39]中的流量估计，社交媒体[40]中的错误信息检测，以及自然科学的各个领域，包括建模流体，硬质固体，以及可变形材料相互作用[41]和粒子物理学中的事件分类[44,43]。

在生物医学领域，GML在挖掘图结构数据(包括药物-靶标相互作用和通过知识图谱嵌入进行关系预测)方面已经达到了最新水平[30,44,45];分子特性预测[21,22]，包括预测吸收、分布、代谢和排泄(ADME)谱[46];靶标识别[47]到重新设计分子的早期工作[48,49]。最值得注意的是，Stokes等人利用定向信息传递的GNN作用于分子结构，为抗生素研发提出了可重用的候选抗生素，验证了他们在体内的预测，从而提出了结构明显不同于已知抗生素的合适的可重用候选抗生素。因此，GML方法在药物开发过程中具有极大的应用前景。

结论：

历史上，生物分子相互作用和基因调控网络的分析一直具有巨大的学术兴趣，但在药物发现和开发中可翻译的结果有限。
网络医学使用手工绘制的图特征提供了很有前景的结果，但在整合不同的生物数据源的问题上缺乏任何有原则的解决方案: 结构数据(药物和生物分子)、功能关系(抑制、激活等)和表达(RNA-seq、蛋白质组学等)。
深度学习目前已应用于生物医学研究的多个领域，特别是在生物医学图像(如组织病理标本)的解释方面，实现由上级到医生的结果。
图机器学习将网络拓扑分析技术与深度学习技术相结合，学习有效的节点特征表示。
图机器学习已被应用于药物发现和开发中的问题，并取得了巨大的成功，出现了一些实验结果: 小分子设计、药物与靶标相互作用的预测、药物与药物相互作用的预测和药物的重新利用都是比简单的非图ML方法取得了相当大的成功和改进的任务。