Nat. Mach. Intel. | 通过课程学习方法优化分子从头设计模型

编译 | 任宣百审稿 | 刘名权本文介绍由瑞典分子人工智能研究所的Atanas Patronov团队发表在Nature Machine Intelligence的研究成果。作者将课程学习应用于药物发现中。在全新的设计平台中实现课程学习（CL），并将其应用于不同复杂性的分子设计问题中。结果表明，与标准的基于策略的强化学习相比，课程学习能够加速学习效率和优化模型输出的质量。

1 简介分子设计需要在化学空间中进行多参数优化(MPO)搜索，估计在1023-1060个分子的范围内。之前的分子设计方法有虚拟筛选（VS）等，但随着深度学习的兴起，深度学习已逐渐替代VS方法。深度学习与依赖于枚举分子的方法相比，可以在更大的化学空间中进行采样。

使用基于策略的强化学习(RL)、基于价值的RL、学习分子潜在空间，以及其他方法（树搜索和遗传算法）的深度生成模型已经被提出来设计具有期望特性的分子。在基于策略的RL中，agent（生成模型）学习策略（在给定状态下采取的一系列行动）来产生最大化奖励的分子，这是根据预定义的奖励函数计算出来的。通常，基于物理的结合亲和力相似方法，例如分子docking，把它作为奖励函数的一个组成部分，来设计具有更强预测活性的分子。给定足够长的训练时间，这些模型可以学习生成满足所需的MPO目标的分子。然而，由于复杂的奖励函数难以找到最小值，在这种情况下，agent可能会从化学空间中远离预期目标的区域进行多次采样。因此，基于策略的RL对于复杂的MPO目标是不可行的，从而导致计算资源的次优分配，且最终合成结果为次优分子。

在这项工作中，作者在从头开始的分子设计平台REINVENT的基础上，引入了CL方法，用于解决基于策略的RL任务中存在的问题，使用CL扩展了REINVENT对复杂奖励函数的适用性。作者通过设计3-磷酸肌酸依赖性蛋白激酶-1（PDK1）的案例研究来证明CL在REINVENT中的有效性。作者表明，与基于策略的RL相比，CL可以规避高计算成本。此外，课程提供了一种自然的方法，例如，课程中的微小改变可以引导分子设计，以一种可预测的方式控制结果的质量和多样性。

2 结果 CL概述在CL中，将一个复杂的任务分解为更简单的组成任务，以加速训练和收敛。其目标是在提供生成目标之前，指导agent去学习越来越复杂的任务。agent学习从课程阶段一直进行到生成阶段，并由课程进展标准进行控制，检查agent是否为每个目标达到了足够的分数阈值（图1）。在前者中，使用复杂性逐渐增加的顺序任务来训练agent。在后者中，agent在满足生成目标的有利化学空间区域取样化合物。在生成阶段维护agent策略更新，以确保来自不同最小值的agent样本。

图1 CL概述

目标scaffold构建作者表明CL可以引导agent生成具有相对复杂scaffold的化合物，该化合物不存在于训练集中（图2）。CL可以通过将目标scaffold分解为更简单的子结构，从而加速收敛（图2）。有五个课程目标，每个目标依次分配到更复杂的子结构，课程进展标准阈值为0.8。该agent的任务是生成具有子结构的化合物，直到平均分数为0.8。当满足一个课程发展标准时，就会激活一个连续的和更复杂的课程目标。每次课程目标的更新都会伴随着平均分数的急剧下降，例如，在大约在150 epoch左右（图2），当前不可能取样的化合物也会偶然地出现具有连续的子结构。在训练过程中，agent学会了生成具有越来越复杂的子结构的化合物，直到构建出目标scaffold。

图2 CL目标scaffold构建

满足分子docking约束作者利用单一的课程目标，可以加速agent的生成效率，并生成满足docking约束的化合物，即预测保留了实验验证的交互作用。首先，作者证明了基线RL的生成目标具有挑战性(图3b，c)。在前100个epoch，docking分数约为0，这表明基本上没有化合物满足docking约束。对于100-200的epoch，一些化合物满足docking约束，但分数仍然很低。只有从第200个epoch开始，docking分数才开始提高，并指示agent开始进入生成状态的点。很明显，基线RL是次优的，因为该agent花费了大量的时间来生成不满足生成目标的化合物。

为了解决模型受限于基线RL问题，作者设计了课程并引入了两个课程目标来指导分子生成：Tanimoto(2D)和ROCS(3D)。前者的基本原理是，通过教agent首先生成与参考配体具有二维相似性的化合物，随后生成的化合物将有更大的可能性满足docking约束。ROCS的基本原理是相同的，除了使用三维相似性来匹配参考配体的形状和静电场。使用Tanimoto和ROCS进行三次基线RL实验与CL进行比较。这些基线实验并没有提高agent的生成率，并且可以观察到与（图3b、c）中所示的基线相似的训练进度对于Tanimoto(2D)和ROCS(3D)，该agent能够立即生成满足docking约束的化合物(图3b)。更具体地说，尽管在Tanimoto(2D)实验中，docking开始于一个相对较低的值(但高于基线RL)，但该agent在前50个epoch迅速改善。在ROCS(3D)场景中，在300个epoch时CL超过基线RL方法获得的最高分数。结果是直观的，因为强制agent首先学习生成与参考配体具有更高的二维相似性的化合物，生成分子会更可能满足docking约束。当使用ROCS作为课程目标时，也进行了类似的观察(图3c)。为了可视化结果的质量，作者将选定生成的化合物的结合姿态与参考配体进行重叠(图3d)。

图3 设计PDK1抑制剂的基线RL与CL对比

通过课程模型增强目标的优化为了进一步研究基线RL和CL实验的输出，作者将三次重复实验中收集到的化合物的所有docking分数汇总起来，结果分布如图4所示。首先，与基线RL相比，CL产生了明显更多的有利化合物，因为CL只存储了那些通过了基于docking和QED的最低分数的化合物。第二，CL生成的化合物比基线RL生成的拥有更高的平均docking分数。第三，对于这两个课程目标(Tanimoto和ROCS)，high scenario比low scenario具有更大docking分数密度。

图4 基线RL与CL docking分数分布

课程目标保持探索分子scaffold 通过从三次重复实验中提取并平均独特的Bemis-Murcko scaffold的数量来研究scaffold的多样性，如图5所示。CL实验比基线RL产生了更多独特的scaffold。在课程目标中，Tanimoto比ROCS产生了更多独特的scaffold。类似地，对于Tanimoto和ROCS，high scenario比low scenario产生更多独特的scaffold。为了评估生成的scaffold的质量，如果相应的化合物比参考配体具有更有利的docking分数，作者将scaffold表示为“有利的”。从绝对计数和百分比来看，CL比基线RL产生更独特和有利的scaffold（图5）。这与图4中的对接分数分布一致，说明了CL实验的docking分数更富集。结果表明，使用课程目标增加了生成的有利scaffold的数量，并保持了由多样性过滤器强制执行的agent探索。

图5 基线RL与CL生成独特的Bemis-Murcko scaffold的比较

引导agent策略在生成目标优化和解决方案空间多样性之间进行权衡为了进一步阐明课程目标的作用，以及agent在下游生成任务中保留获得知识的程度，从CL Tanimoto实验中收集到化合物，并计算每个epoch与参考配体的平均Tanimoto相似度（化合物和scaffold）（图6a）。左边的子图显示了Tanimoto相似度在low scenario和high scenario下的逐渐优化，代表了课程阶段。右边的子图显示了在生成阶段收集到的所有化合物的Tanimoto相似性。总的来说，高Tanimoto实验生成的化合物与低Tanimoto实验生成的化合物与参考配体具有更大的Tanimoto相似性，与预期一致。此外，在scaffold水平上，Tanimoto相似性的逐渐降低进一步支持了CL进行scaffold跳跃的能力(图6a)。相对于基线RL实验，CL实验中收集的化合物表现出更大的相似性，解释为从化学空间的“更近”区域取样化合物(图6b)。此外，high scenario比low scenario具有更高的交叉Tanimoto相似性密度。采用均匀流形近似和投影(UMAP)作为降维技术，以可视化CL Tanimoto实验的空间多样性。从low scenario和high scenario中采样的化合物之间有显著的相似性，没有scaffold重叠(图6c)。

图6 agent知识保留与课程目标对解决方案空间多样性的影响

3 总结与讨论在这项工作中，作者在分子从头设计平台REINVENT的基础上，通过调整CL来加速agent在复杂MPO目标上的收敛。相对于基线RL而言，即使是由一个课程目标组成的课程，也能成功地引导agent高效的完成任务。作者展示了CL在两个生成目标上的应用：构建一个相对复杂的scaffold和满足一个分子docking的约束。在前者中，在相同的epoch下，CL成功地从比较简单的成分中构建出复杂的scaffold，而基线RL则无法做到。在第二个应用例子中，使用Tanimoto（二维）或ROCS（三维）与参考配体的形状相似性作为课程目标，引导agent到满足docking约束的化学空间区域进行采样。相比之下，基线RL花了很多时间产生不利的化合物。CL通过提供教给agent特定知识的能力，促进了agent对生成目标的直接引导。结果表明，相对于基线RL，教agent在更大程度上优化课程目标可以提高满足复杂生成目标的能力。参考资料 Jeff Guo , Vendy Fialková, Juan Diego Arango, Christian Margreitter. et al. Improving de novo molecular design with curriculum learning. Nature Machine Intelligence (2022). https://www.nature.com/articles/s42256-022-00494-4
数据 https://github.com/MolecularAI/ReinventCommunity/blob/master/notebooks/models/random.prior.new

代码 https://github.com/MolecularAI/Reinvent

成为VIP会员查看完整内容