ATMOL：利用对比学习预训练模型预测分子性质

——背景——

分子的物理化学性质，如水溶性、亲脂性、膜通透性和解离度，对药物开发先导化合物的筛选具有重要意义。准确、高效地预测分子性质是药物研发的基本问题之一。表征学习已被证明大大提高了分子性质预测的性能。然而，基于监督学习的分子表示算法由于标记数据有限，只能在有限的化学空间内进行搜索，泛化能力较差。为了应对这一问题，2022年8月6日，中南大学的邓磊课题组提出了一种基于attention-wise masking的对比学习预训练模型ATMOL，改进对分子的编码与分子性质的预测。该工作发表在Briefings in Bioinformatics，题为“Attention-wise masked graph contrastive learning for predicting molecular property”。 ——方法——

图1：分子性质预测算法ATMOL的流程示意图。如图1所示，完整的算法分为两大部分，第一部分是对分子进行编码的预训练模型，第二部分是用于下游分子性质预测的迁移学习。其中预训练模型的数据来自ZINC数据库，迁移学习的数据来自MoleculeNet数据库。第一部分预训练模型包含3个关键的步骤：（a）首先作者基于SMILES对输入的分子构建分子图，然后使用图注意力网络（Graph Attention Network，GAT）将分子图编码到隐空间。（b）对编码后的分子图，根据GAT编码器学习到的attention权重对边或节点添加mask，从而产生增广的分子图。（c）通过最小化增广分子图与原始分子图之间的对比损失（Contrastive loss）来捕获重要结构和高阶语义，优化分子表示。对于训练好的分子表示模型，第二部分将固定预训练模型的参数不变，提取分子表示用于迁移学习，仅通过训练两个全连接层来预测分子性质。**——预测效果——**作者从多个维度对算法的设置进行了检验，并对预测效果进行了评估。对于分子性质的预测，作者在包含多种分子性质的7个数据库上进行测试。首先，作者将基于Attention-wise mask的预训练模型与基于监督学习的方法进行比较，发现算法ATMOL所用的对比学习预训练模型对分子性质的预测效果显著好于基于监督学习的方法，并且同时对分子图的边和节点添加mask比只对边或节点添加mask效果更好。表1：比较ATMOL方法与基于监督学习的方法预测分子性质的结果。表头表示在7个不同的数据库上的预测结果。

添加mask的方式包括随机添加或根据attention权重添加，结果显示对attention权重最大的边和节点添加mask效果最好，而以往常用的随机添加mask则效果最差（图2，左）。经过测试，作者发现添加25%（占所有边和节点的比例）的mask效果最好，说明低比例的mask无法产生有效的增广图，而高比例的mask则可能破坏了重要的分子结构从而导致预测结果变差（图2，右）。除此之外，作者还利用不同大小的数据集分别训练模型，结果显示基于大数据集上的结果优于基于小数据集上的结果。

图2：左，4种添加mask的方式对预测结果的影响。右，添加mask的比例对预测结果的影响。作者还将ATMOL与前人报道的5种基于自监督的分子表征算法同时用于分子性质的预测，进行比较。结果显示ATMOL总体优于其它5种算法，且基于大数据集的ATMOL算法在某些测试集上效果提升格外明显（表2）。表2：ATMOL与其它5种算法预测分子性质结果比较。

最后，作者试图探索算法的可解释性，通过可视化attention权重，作者发现在图3所示的例子中，算法学习到的高attention权重与已报道的关乎分子性质的重要组分相匹配。

图3：Attention权重可视化示例。（a）和（c）代表同一个分子；（b）和（d）代表同一个分子。**——总结与讨论——**邓磊课题组提出的ATMOL算法，构建了一个基于attention-wise masking的对比学习预训练模型，在预测分子性质的任务上取得了不错的提升。值得注意的是，作者认为对attention权重最大的部分添加mask，能够扩展负样本并使其更加多样化，从而有利于提高对比学习的效果。作者对算法可解释性的探索，也显示了ATMOL具有提取分子关键结构的潜力。参考文献：

[1] Liu, H., Huang, Y., Liu, X. & Deng, L. "Attention-wise masked graph contrastive learning for predicting molecular property." Briefings in Bioinformatics, bbac303. DOI: 10.1093/bib/bbac303 点击左下角的"阅读原文"即可查看原文章。

作者：陈佳晓审稿：谢维新编辑：黄志贤

GoDesign ID：Molecular_Design_Lab （扫描下方二维码可以订阅哦！）