编译 | 陈杨阳 审稿 | 王梓旭
今天给大家介绍来自美国加州大学团队发表在ICML2022上的文章。该论文提出了一种能够加快分子生成速度的LIMO模型。LIMO采用了变异自动编码器生成分子的的潜在表示,并且通过网络进行分子的属性预测,以实现更快的基于梯度的分子属性反向优化。综合实验表明,LIMO在基准任务上表现出竞争性,在生成具有高结合力的类药化合物的新任务上明显优于当前最先进的技术,并对两个蛋白质目标的结合力达到纳摩尔范围。作者利用更精确的基于分子动力学的绝对结合自由能计算,展示了生成的分子基于对接的结果,并表明模型生成的一个类药物化合物对人类雌激素受体的预测K D值(结合亲和力的度量值)远超过了早期的典型候选药物和大多数FDA批准的药物对其各自目标的亲和力。
1 研究背景 现代药物发现是一个漫长而昂贵的过程,需要花费大量的人力物力。药物发现的第一阶段的核心目标是找到一个与指定蛋白靶点有高结合亲和力的化合物,同时保持有利的药理和化学特性。这是一项艰巨的任务,因为在类似药物大小的范围内有1033个可行的分子,而其中只有极小部分能与任何特定的目标结合。目前,该过程由药物化学家通过大型实验性化合物筛选和迭代合成及测试完成的。近年来,利用深度生成模型来识别有潜在的候选药物掀起了热潮。现有的方法主要采用强化学习、马尔可夫抽样或由高斯过程指导的深度遗传模型。然而,即使是最好的生成方法,在优化计算成本较高的分子特性(如结合亲和力)时,速度也非常缓慢。
2 主要贡献 作者提出了一种新的方法: Latent Inceptionism on Molecules(LIMO),这是一种用于快速重新设计分子的生成模型。模型的贡献如下: 1. 在变异自动编码器(VAE)框架的基础上,结合了一个新的属性预测网络结构。 1. 在一个潜在的空间上采用了一种类似inceptionism技术的反向优化技术,以产生具有理想特性的类药分子。 1. 比现有的基于强化学习的方法(快6-8倍)和基于采样的方法(快12倍)要快得多,同时在生成具有所需特性的分子方面保持或超过基线性能。 1. 允许生成具有所需特性的分子,同时保持分子的子结构固定,这是引导性优化的一项重要任务。 1. 在生成与目标蛋白具有高结合亲和力的类药分子的新任务中,明显地超过了当前最先进的方法。
3 方法 模型的框架如图1所示:利用VAE来学习类药物化学空间的潜在特征表示。然而,与以前的工作相反的是,模型依次使用两个神经网络(一个解码器和一个性质预测器)对空间的分子特性进行反向优化。
图1: LIMO框架图 模型使用一个decoder网络对分子表征进行解码,以改善结果值,从而优化分子特性,同时允许使用有效的基于梯度的优化器,保持中间结果的可微调性。模型使用自我参照的嵌入式字符串(SELFIES)来确保优化过程中的化学有效性。基于以上方法,LIMO能够实现与强化学习方法相同的性能,同时速度上也提高几个数量级。在基于结构的结合亲和力优化这一非常有用的任务上,LIMO明显地超过了最先进的(包括RL)方法,同时速度也快得多。
4 实验 4.1 数据集 对于所有的优化任务,使用基准ZINC250k数据集,其中包含了大概25万个可购买的类药物分子。使用AutoDock- GPU来计算结合亲和力,并使用RDKit来计算其他的分子属性。对于随机生成任务,在基于ZINC的大约200万分子的MOSES数据集上进行训练。
4.2 评价指标 利用QED和最大化penalized logP(p-logP)、针对性的logP、最大化相似性约束p-logP、子结构约束的logP极端化,以及单一和多目标结合亲和力最大化进行综合评估。所有这些任务都是药物发现中的典型挑战,特别是围绕子结构的优化和结合亲和力的最大化。在论文的附录中可以找到每个任务的详细描述和部分结果。
4.3 基线模型 LIMO与下列最先进的分子设计模型进行比较:JT-VAE、GCPN、MolDQN、MARS和GraphDF。
4.4 蛋白质靶标 对于结合亲和力优化的任务,选取两个人类蛋白作为结合物。分别是:人类雌激素受体(ESR1)和人类过氧化物酶体乙酰CoA乙酰转移酶1(ACAA1)。
4.5 实验结果
4.5.1 QED和p-logP最大化
表1 QED和p-logP最大化方法的比较
表1显示了LIMO和基线模型在生成具有高惩罚性logP和QED分数的分子方面的结果。LIMO在深度生成和基于RL的模型(即除MARS外的所有方法)中取得了有竞争力的结果,同时花费的时间明显更少(p-logP是一个 "破碎 "的指标,几乎完全取决于分子长度。如果没有长度限制),MARS可以很容易地生成具有高p-logP的长碳链。在有分子长度限制的模型中(GCPN、MolDQN和LIMO),LIMO生成的分子的p-logP与MolDQN相似,是最强的基线。同样,QED在其最大分值0.948附近受到边界效应的影响,而LIMO非常接近该分值。QED得分超过0.9的药物非常罕见,因此达到接近这个最大分值对于药物发现来说已经足够。
4.5.2 目标性的logP
表2 生成目标范围logP的结果
表2展示了LIMO生成logP目标范围为-2.5<logP<-2.0的分子的能力。LIMO在目标logP范围内生成的分子中实现了最高的多样性,虽然它的成功率低于其他方法,但它在目标范围内每秒生成33个分子。这与其他模型的总体生成速度相似。
4.5.3 最大化相似性约束 p-logP
表3最大化相似性约束 p-logP结果
表3总结了相似性约束的p-logP最大化任务的结果。对于两个最低的相似性约束(δ=0.0,0.2),LIMO实现了最高的惩罚性logP改进,而在更高的δ值下,它的改进与其他方法没有区别。这表明LIMO对于无约束优化的能力,以及在更多的约束环境下达到有竞争力的性能。
4.5.4 子结构约束的logP极端化
图2子结构约束的logP极端化任务的结果
图2显示了子结构约束的logP极端化任务的结果。作者从ZINC250k中选择了两个分子作为起始分子,并将这些起始分子的子结构定义为固定的,然后使用LIMO进行logP的最大化和最小化,如图所示,在这两种情况下,可以成功地增加或减少logP,同时保持子结构不变。
4.5.5 最大化结合亲和力
表4 具有高计算结合亲和力的分子结果
表5 在多目标优化和细化后生成的ESR1和ACAA1的配体的比较
对于两个蛋白质目标,选取了每种方法产生的10k个总分子中的前3个最高亲和力(即用AutoDockGPU估计的最低分离常数,KD,)。如表4所示,LIMO生成的化合物具有更高的计算结合亲和力,而所需时间远远少于先前的先进方法。选择GCPN、MolDQN、GraphDF和MARS作为基线比较,因为它们在其他单目标优化任务中表现出色。
图3 从多目标(上排)和单目标(下排)结合亲和力最大化中产生的分子
图4 对接ESR1和ACAA1的配体的可视化图
图3的最下面一行显示了LIMO在只对结合亲和力进行优化时生成的两个分子的化学结构,这两个蛋白质目标。虽然这些分子具有相对较高的亲和力,但它们在药物发现中没有什么用处,因为它们在药理学和合成学上都有问题。所以后续作者在优化过程中加入了配体质量的措施。
为了确认由LIMO生成的配体可能以高亲和力结合它们的目标蛋白,而不是由于AutoDock-GPU评分功能中的不准确或捷径造成的,作者将它们的对接姿势在三维中可视化,以寻找物理上合理的结合构象和能量上有利的配体-蛋白相互作用。对接软件为每个蛋白质生成的两个配体之一产生的三维结合姿势(图4)显示,它们很好地适合于蛋白质的结合口袋,并促进有利的配体-蛋白质相互作用。
表5显示了两个生成的化合物与ESR1和ACAA1的结合和药物相似性指标(与图3第一行所示相同)。对于ESR1,作者将化合物与他莫司和雷洛昔芬进行比较,这两种现代乳腺癌药物在市场上以该蛋白为目标。同时与GCPN产生的化合物进行比较,GCPN是仅次于LIMO的单目标结合亲和力最大的方法,具有相同的多目标权重和与LIMO相同的过滤步骤。
5 总结和讨论 论文提出了一个用于新分子设计的生成性建模框架LIMO。LIMO利用VAE潜在空间和两个神经网络依次对分子特性进行反向优化,允许使用高效的梯度优化器,在明显较短的时间内获得具有竞争力的基准任务结果。相对于同类方法,在单位时间内产生六倍的分子的能力(表4)增加了产生高质量候选药物的几率,这些候选药物可以在连续的几轮细化中存活下来,从而从整体上加速了药物开发,特别是考虑到LIMO的高度多样性(表2,6)。在生成具有高结合亲和力的分子的任务上,LIMO优于所有先进的基线任务。LIMO有望在药物发现方面有多种应用。快速生成高亲和力化合物的能力可以加速目标验证,其生物探针可用于确认目标的拟议生物效应。
参考资料 Eckmann, P., Sun, K., Zhao, B., Feng, M., Gilson, M.K. and Yu, R., 2022. LIMO: Latent Inceptionism for Targeted Molecule Generation. arXiv preprint arXiv:2206.09010.