利用知识图谱和分子图，湖大等开发药物筛选新模型

2022 年 8 月 13 日 机器之心

机器之心专栏

机器之心编辑部

当下的分子相互作用预测方法还有进步的空间吗？当然有！湖南大学曾湘祥教授团队联合伊利诺伊大学芝加哥分校 Philip S Yu 教授和湘潭大学林轩博士开发了一种名为 KG-MTL 的新方法，它是一种新颖的大规模知识图谱增强多任务学习模型，通过充分利用知识图谱和分子图中的特征信息来预测分子间的相互作用。

分子相互作用预测在药物发现和自然科学等领域中发挥着至关重要的作用，这个问题也十分具有挑战性，现有的大多数方法不能准确地利用知识图谱和分子图的信息。

在本文中，研究人员提出了一种 大规模的知识图谱增强多任务学习模型 KG-MTL ，KG 即 Knowledge Graph（知识图谱），旨在描述药物、基因、疾病等实体及它们之间的关联。MTL 即 Multi Task Learning（多任务学习），在学习一个问题的同时，可以通过使用共享机制来获得其他相关问题的知识。具体地，KG-MTL 设计了一个新颖的共享单元以协同的方式从知识图谱和分子图中提取特征，充分利用了知识图谱和分子图的信息 。

研究人员进行了一系列实验，证实了本文提出的 KG-MTL 方法在两个分子相互作用的预测任务上均优于最先进的方法，即 药物 - 靶标相互作用预测和化合物 - 蛋白质相互作用预测 。

论文地址：https://ieeexplore.ieee.org/document/9815157

引言

靶标之间的分子相互作用预测在药理学和临床应用等领域起着至关重要的作用，预测未知靶点之间的未映射关系，即分子相互作用预测（MIP），典型的 MIP 管道以药物和靶标（例如蛋白质或基因）的特征作为输入并输出给定药物 - 靶标对的相互作用概率。然而，计算的方法准确识别分子的相互作用仍然具有挑战性。

研究人员提出了一种新颖的大规模知识图谱增强多任务学习模型 KG-MTL，其思路简单且直观，采用多任务学习策略将分子图的拓扑结构和 KG 中相应的药物实体相结合。此外，曾湘祥教授团队联合亚马逊AI等单位联合构建了 全面的生物知识图谱，包含了药物、疾病、蛋白质、基因、途径和表型等知识信息 ，因此可以从 KG 中挖掘大量潜在的药物 - 靶标相互作用，这些相互作用可通过知识图谱中的查询模式来提高其他任务的预测性能。

KG-MTL 的框架如下图 1 所示，该框架 由 DTI、CPI、共享单元三个模块组成 。

图 1 KG-MTL 的框架

论文重点介绍了分子相互作用预测的两个代表性应用：药物 - 靶标相互作用（DTI）和化合物 - 蛋白质相互作用（CPI）预测。

方法

基于图的方法

最近，各种深度神经网络和图神经网络（GNNs）在分子相互作用预测方面取得了优异的性能。然而，这些方法要么只考虑分子的局部特征，要么考虑大多数生物实体相对较小方面的方法。通过与基于图（或基于网络的）方法的比较， KG-MTL 可从分子图中自动提取药物的拓扑结构特征，也可从大规模知识图谱中获取药物与其他实体之间的语义关系信息 。

基于知识图谱的方法

最近，关于分子相互作用预测的研究也应用大规模知识图谱（KG）来提取各种生物实体信息。现有模型通常通过各种嵌入方法提取药物特征，直接从 KG 中学习实体嵌入，同时很容易忽略药物与其他实体之间的语义关系和拓扑特征。

与这一系列方法相比，KG-MTL 在这些方面与它们不同：

为进一步提高两个任务之间的预测性能，研究人员提出的框架同时考虑了多种类型的药物实体和来自知识图谱的关系以及来自分子图的邻域结构信息；
开发了一个有效的共享单元模块，通过使用多任务学习策略来训练在该框架下运作良好的两个任务。

实验

数据集和评估指标

实验使用 4 个数据集评估 KG-MTL：（1）DrugBank 收集独特的生物信息学和化学信息学资源，其中包含了 16553 个药物 - 靶标对、（2）DrugCentral 包含 9477 种药物 - 靶标对、（3）Human 和（4）C.elegans 是整合各种资源的高质量数据集。为了评估性能，实验采用了 准确率（ACC）、ROC 曲线下的面积（AUC）和 Precision-recall 曲线下面积（AUPR） 作为指标。

DTI 实验

为了验证 KG-MTL 在 DTI 任务上的性能，研究人员将 DrugBank 和 DrugCentral 作为 DTI 任务采用的数据集。同时将 KG-MTL 的模型性能与传统的机器学习方法、基于图的方法和基于知识图谱的方法及采用的单任务辩题模型进行了对比，实验结果表明 KG-MTL 中采用的共享单元可以提高单任务模型的性能。

表 1 DTI 任务的结果

CPI 实验

为了验证 KG-MTL 在 CPI 任务上的性能，研究人员采用 Human 和 C.elegans 数据集作为 CPI 任务使用的数据集。同时，将传统的机器学习方法、基于图的方法、基于知识图谱的方法和单任务模型变体与 KG-MTL 进行对比，实验结果表明 KG-MTL 中的共享单元同样可以提升单任务性能。

表 2 CPI 任务的结果

消融实验

为了研究共享单元的不同操作和学习策略如何提高所提出模型的性能，研究人员对 KG-MTL 的以下变体进行了消融研究：

KG-MTL-S 是 KG-MTL 的变体，它消除了共享单元和学习策略。因此，可以采用 KG-MTL-Sdti 和 KG-MTL-Scpi 分别表示单个 DTI 任务和 CPI 任务；
KG-MTL-L 消除了共享单元的交叉操作，仅保留了线性操作；
KG-MTL-C 删除了共享单元的线性操作，并保留了交叉操作。

两种任务的消融实验结果如表 1 和表 2 所示。结果表明，包括线性和交叉操作在内的共享单元以及学习策略对这两个任务都有效。在所有变体中，KG-MTL-S 与 KG-MTL 相比具有最显著的性能差距，这表明共享单元在帮助模型共同捕获从分子图和知识图谱中提取的药物特征方面贡献最大，从而提高了预测性能。

此外，所提方法在所有数据集中均优于 KG-MTL-L 和 KG-MTL-C，证明了设置完整的共享单元有利于提高预测性能。

总结

靶标之间的分子相互作用预测（如 DTI 和 CPI 预测）在药理学和临床应用等许多领域起着关键作用。本文专注于分子相互作用预测，该预测要求模型捕获药物和靶标相关的相互作用。然而，以前的工作采用不充足的信息来表示药物特征，忽略了知识图谱中的语义信息。

为了解决这一局限性，本文提出了一个 KG-MTL 的新框架，该框架在多任务学习的视角下开发了一种新的共享单元，分别从化合物的分子图和知识图谱的药物实体的语义关系中捕获信息。在真实数据集上的实验结果表明，KG-MTL 可以提高药物 - 靶标相互作用预测和化合物 - 蛋白质相互作用预测任务的性能。