Nature子刊：精准预测分子性质和药物靶标的无监督学习框架

2022 年 11 月 28 日 PaperWeekly

药品的临床疗效与安全性由在人类蛋白质组内的分子靶标决定。本文中，湖南大学信息科学与工程学院的李肯立/曾湘祥教授课题组提出了一种无监督的预训练深度学习框架，对 1000 万个未标记的类药性、生物活性分子进行预训练，以预测候选化合物的药物靶标和分子性质。

论文标题：

Accurate prediction of molecular properties and drug targets using a self-supervised image representation learning framework

论文链接：

https://www.nature.com/articles/s42256-022-00557-6

收录期刊：

Nature Machine Intelligence

背景介绍

药物的临床疗效和安全性取决于药物分子的性质和药物作用的靶点。然而，通过湿实验和临床实验的方式评估药物性质和药物靶点是代价巨大的，平均一款新药的研发需要花费 10 年以上时间，10 亿美元成本。通过人工智能技术预测药物性质和药物靶点，可以加速药物研发进程，大幅减少药物研发成本。

在计算机视觉中无监督的最新进展下，本文开发了一个具有化学意识的无监督分子图像预训练框架—— ImageMol，用于从大规模分子图像中学习分子结构。ImageMol 将图像处理框架与综合分子化学知识相结合，以可视化计算的方式提取精细像素级分子特征，在各种药物发现任务中演示了 ImageMol 的高准确性，为计算药物发现提供了一个强大的预训练深度学习框架。

本文创新和贡献：

1. 以往分子性质及药物靶标预测的研究大多围绕序列表示和图（graph）表示展开，它们在提取分子表征时存在一定的局限性。本文提出首个基于分子图像的无监督深度学习框架，为性质预测与靶标预测的分子图像推理提供了基础性、关键性的支撑，证明了分子图像在该领域具有巨大的潜力，开创了分子表征学习的新范式，具有重要的应用价值。

2. 相比于现有的基于序列和图的方法，该研究提供了分子结构重要性的实验观察，展示了模型对分子图像的全局注意力与局部注意力，这些结果使研究人员能够在视觉上直观地理解分子结构是如何影响性质和靶点。

3. 该研究在 51 个药物发现的基准数据集上进行评估，展示了其在性质预测和靶点预测的性能均优于其他模型。此外，在美国国家转化科学推动中心（NCATS）的 13 个实验数据集中准确识别了抗 SARS-CoV-2 分子并确定了治疗 COVID-19 的临床候选 3CL 蛋白酶抑制剂，这对于加速新冠药物研发的进程具有重要意义。

方法介绍

2.1 ImageMol预训练策略

由于有标签的数据较少，通过预训练可以提升模型的效果。目的为让模型学习如何通过对大规模的无标记数据集进行训练来提取表达性表示，然后将预训练好的模型应用于相关的下游任务并进行微调，以提高其性能。在对模型进行预训练时，需要确定几个有效的、与任务相关的代理任务。与基于图的和基于 SMILES 的预训练方法（只考虑一致性/相关性）不同，本文设计了考虑一致性、相关性和合理性的 5 个代理任务（MG3C、MIR、MCL、MRD、JPP）。

2.2 预训练过程和微调

在预训练中，本文使用了来自 PubChem 的约 1000 万个未标记分子进行无监督的预训练。ImageMol 的预训练包括两个步骤，分别是数据增强和训练过程。完成预训练后，本文在下游任务中对预训练的 ResNet18 进行微调。通过为预训练模型建立复杂的微调任务，可以进一步提高模型的性能。

实验

3.1 基准评估

本文使用两种最流行的拆分策略（scaffold split与random scaffold split）来评估 ImageMol 在所有基准数据集上的性能。在分类任务中，利用 ROC 曲线面积 AUC，发现 ImageMol 在 scaffold split 上发现了更高的结果。本文使用了与最先进的卷积神经网络（CNN）框架 Chemception相同的实验设置进行比较。

ImageMol 对 HIV 和 Tox21 的检测结果优于 Chemception，表示 ImageMol 比 Chemception 能够从分子图像中获取更多的生物学相关信息。与 Chemception46，ADMET-CNN12 和 QSAR-CNN47 这三种最先进的基于分子图像的表达模型相比，ImageMol 在预测五种主要药物代谢酶的抑制剂和非抑制剂方面的 AUC 值更高。

ImageMol 与使用 random scaffold split 的基于指纹的模型（如AttentiveFP）、基于序列的模型（如 TF_Robust）和基于图的模型（如N-GRAM、GROVER 和 MPG）相比具有更好的性能。此外，与传统的基于 MACCS 的方法和基于 FP4 的方法相比，ImageMol 在 CYP1A2，CYP2C9，CYP2C19，CYP2D6 和 CYP3A4 上实现了更高的 AUC 值。

与基于序列的模型（包括 RNN_LR、TRFM_LR、RNN_MLP、TRFM_MLP、RNN_RF、TRFM_RF和CHEM-BERT）和基于图的模型（包括 MolCLRGIN、MolCLRGCN 和 GROVER）相比，ImageMol 在 CYP1A2、CYP2C9、CYP2C19、CYP2D6、CYP3A4 上得到了更好的 AUC 值。

3.2 13个SARS-CoV-2靶标的抗病毒活性预测

在 13 个 SARS-CoV-2 生物检测数据集中，ImageMol 获得了 72.6% ~ 83.7% 的高 AUC 值。为了测试 ImageMol 是否捕获到生物相关特征，本文使用 ImageMol 的全局平均池化（GAP）层提取潜在特征，并使用t分布随机邻域嵌入（t-SNE）对潜在特征进行可视化。

在所有 13 个靶标上，ImageMol 通过识别的潜在特征可以很好地将有无活性的抗 SARS-COV-2 药物进行区分。这些观察结果表明，ImageMol 可以准确地从分子图像中提取区分的抗病毒特征，用于下游任务。

3.3 识别抗SARS-COV-2抑制剂

通过 ImageMol 框架下的 3CL 蛋白酶抑制剂和非抑制剂数据集的分子图像表示，发现 3CL 抑制剂和非抑制剂在 t-SNE 图中很好地分离（b）。ImageMol 从 16 种已知的 3CL 蛋白酶抑制剂中鉴定出 10 种药物，表明在抗 SARS-COV-2 药物发现中具有较高的泛化能力（c,d）。

3.4 注意力可视化

ImageMol 可以从分子图像表示中获取化学信息的先验知识，包括 =O 键、-OH键、-NH3 键和苯环（a）。图 b 和 c为 ImageMol 的 Grad-CAM 可视化的 12 个示例分子。这表示 ImageMol 同时准确地对全局（b）和局部（c）结构信息进行注意捕获，这些结果使研究人员能够在视觉上直观地理解分子结构是如何影响性质和靶点。

3.5 消融分析

ImageMol 比 ImageMol_NonPretrained 的标准差更低，这表明预训练策略提高了 ImageMol 对超参数的鲁棒性。ImageMol 可以预训练更多的类药物分子，且 ImageMol 框架集成实现的每个任务都协同地提高了性能，这表示未来可以通过从更大的类药物化学数据集进行预训练来进一步改进模型。

总结

本文提出了一种基于无监督的预训练深度学习框架，该框架结合了分子图像和无监督学习来学习分子表征。ImageMol 将为各种新发疾病（包括 COVID-19 大流行和未来的大流行）的快速药物发现和开发提供强大的工具。实验表明，ImageMol 在药物发现的不同任务中实现了高效的性能，优于目前最先进的方法，具有更好的可解释性，在识别分子性质和靶标结合的生物相关化学结构或亚结构方面更直观。

更多阅读