使用深度学习，通过一个片段修饰进行分子优化

2022 年 2 月 7 日 机器之心

编辑 | 萝卜皮

分子优化是药物开发中的关键步骤，可通过化学修饰改善候选药物的预期特性。

来自俄亥俄州立大学（The Ohio State University）的研究人员，在分子图上开发了一种新颖的深度生成模型 Modof，用于分子优化。Modof 通过预测分子处的单个断开位点以及在该位点去除和/或添加片段来修饰给定的分子。

在 Modof-pipe 中实现了多个相同 Modof 模型的管道，以修改多个断开位置的输入分子。研究人员表明 Modof-pipe 能够保留主要的分子支架，允许控制中间优化步骤并更好地约束分子相似性。Modof-pipe 在基准数据集上优于最先进的方法。

该研究以「A deep generative model for molecule optimization via one fragment modification」为题，于 2021 年 12 月 9 日发布在《Nature Machine Intelligence 》。

分子优化制约着药物发现

分子优化是药物发现的关键步骤，可通过化学修饰改善候选药物的所需特性。例如，在先导优化中，可以改变先导分子的化学结构以提高它们的选择性和特异性。

传统上，这种分子优化过程是根据药物化学家的知识和经验规划的，并通过基于片段的筛选或合成来进行。因此，它不可扩展或自动化。

最近的研究表明，使用深度学习的计算机方法使替代的计算生成过程能够加速传统范式。这些深度学习方法从基于字符串的分子表示（SMILES）或分子图中学习，并相应地生成具有更好特性的新表示（例如，通过连接原子和键）。

尽管在计算上很有吸引力，但这些方法在一个非常重要的方面并不符合体外分子优化过程：分子优化需要保留分子的主要支架，但生成完整的新分子结构可能无法复制支架。因此，这些方法在告知和指导体外分子优化的潜力方面受到限制。

「带有一个片段的修饰符」

在这里，该团队提出了用于分子优化的新型生成模型，该模型更近似于硅化学修饰。该方法被称为「带有一个片段的修饰符」或 Modof。遵循基于片段的药物设计理念，Modof 预测分子上的单个断开位点，并通过改变该位点的片段（例如，环系统、接头和侧链）来修饰分子。

与现有的对整个分子图进行编码和解码的分子优化方法不同，Modof 从一个断开位置优化前后分子之间的差异中学习和编码。为了修改一个分子，Modof 只生成一个片段，该片段通过解码从潜在“差异”空间中抽取的样本来实例化预期的差异。然后，Modof 在断开连接的站点移除原始片段，并在该站点附加生成的片段。

通过多次采样，Modof 能够生成多个优化的候选者。一个由多个相同的 Modof 模型组成的管道，表示为 Modof-pipe，通过不同的 Modof 模型迭代地优化多个断开位置的分子，其中一个 Modof 模型的输出分子作为下一个 Modof 模型的输入。Modof-pipe 进一步增强为 Modof-pipem 以允许将一个分子修饰为多个优化的分子作为最终输出。

图示：Modof 模型概述。（来源：论文）

Modof 具有以下优点：

它一次修改一个片段。它更好地接近体外化学修饰并保留了大部分分子支架。因此，它可能更好地告知和指导体外分子优化。
它只对需要修改的片段进行编码和解码，有利于更好的修改性能。
Modof-pipe 迭代地修改不同断开站点的多个片段。它可以更轻松地控制和直观地破译中间修改步骤，并有助于更好地解释整个修改过程。
Modof 没有最先进的技术那么复杂。它的参数至少减少了 40%，使用的训练数据减少了 26%。
Modof-pipe 在优化辛醇-水分配系数方面优于基准数据集上的最先进方法，该系数受到合成可及性 (SA) 和环尺寸的影响，在优化分子没有分子相似性约束的情况下提高了 81.2%，而优化了 51.2 %、25.6% 和 9.2% 的改进，如果优化后的分子需要至少与优化前的分子相似，分别为 0.2、0.4 和 0.6。
Modof-pipem 将 Modof-pipe 的性能提高了至少 17.8%。
Modof-pipem 和 Modof-pipe 在其他两项基准测试任务中也表现出卓越的性能，优化分子对多巴胺 D2 受体的结合亲和力并改善通过定量测量估计的药物相似性。

图示：用于 plogP 优化的 Modof-pipe 示例。（来源：论文）

讨论

使用模拟特性进行分子优化

该研究的实验中考虑的大多数分子特性都是基于模拟或预测值，而不是实验测量的。

也就是说，首先使用独立的模拟或机器学习模型来生成基准数据集的属性值。

例如，通过 Wildman 和 Crippen 方法估计 Crippen logP，使用预定义片段的评分函数计算合成可访问性，使用支持向量机分类器预测 DRD2 属性，并利用非线性分类器结合分子性质的多个期望函数对量子电动力学性质进行了预测。

尽管所有现有的分子优化生成模型都使用这种模拟属性，但挑战和机遇并存。当这些属性预测的模拟或机器学习模型由于各种原因而不够准确时，就会出现挑战，并且从不准确的属性值中学习的生成模型也将不准确或不正确，从而导致生成的分子可能对下游药物开发任务产生负面影响。

然而，随着不断改进这些模拟和预测，在充分释放大规模数据驱动学习范式的力量以刺激药物开发方面，由于属性模拟或预测带来的机会可能是巨大的。

具体来说，如果没有大规模的训练数据，大多数用于药物开发的基于深度学习的模型（其中许多已被证明非常有前途）是不可能的。

尽管通过实验测量大量分子感兴趣的性质是不切实际的，但分子的性质模拟或预测能够实现大量训练数据，并使这种深度学习方法的开发成为可能。幸运的是，由于实验测量的积累和创新计算方法的强大学习能力，属性预测模拟或模型变得更加准确。对大规模分子数据的准确性质模拟或预测，以及从这些分子数据生成模型的强大学习能力，将共同具有进一步推进硅药物开发的强大潜力。

可合成性和逆合成

该实验表明，Modof 还能够提高合成的可访问性。然而，这并不一定意味着生成的分子可以很容易地合成。Modof 的这种限制实际上是几乎所有用于分子生成的计算方法的共同点。最近的一项研究表明，通过深度学习生成的许多分子不容易合成，这限制了生成模型在药物开发中产生真正影响的转化潜力。

另一方面，通过深度学习的逆合成预测，旨在通过从大量合成路径中学习和搜索来确定给定分子的可行合成路径，一直是一个活跃的研究领域。优化分子不仅具有更好的特性，而且具有更好的可合成性，特别是同时确定明确的合成路径，可能是一个非常有趣和具有挑战性的未来研究方向。

该团队希望开发一个全面的计算框架，可以生成具有更好特性的可合成分子。这不仅需要大量数据来训练复杂的模型，还需要必要的领域知识和人类专家循环到学习过程中。

体外验证

最终，需要在实验室中测试计算机生成的分子来验证计算方法。尽管大多数现有的计算方法都是在学术环境中开发的，因此无法在可购买或专有的分子库上轻松测试，并且其生成的分子也无法像前面讨论的那样轻松合成；一些成功的案例表明，强大的计算方法具有巨大的潜力，可以真正做出新的发现，从而在实验室验证中取得成功。

与这种使用深度学习方法的分子优化和发现过程类似的是 AlphaFold，这是一种预测蛋白质折叠结构的深度学习方法。AlphaFold 在解决一个 50 年前的生物学重大挑战方面取得的突破，有力地证明了现代学习方法的巨大力量，这一点不容小觑。

尽管如此，仍然非常需要与制药行业和体外测试合作，才能将计算方法的进步真正转化为真正的影响。此外，对生成的分子进行有效采样和/或优先排序，以确定用于小规模体外验证的可行的小分子集可能是一种实用的解决方案。这将需要在分子子空间上开发新的采样方案和/或在分子生成过程中学习分子优先级。同时，硅生成分子的大规模体外验证是一个具有挑战性但有趣的未来研究方向。

计算分子优化中的其他问题

Modof-pipe 的一个局限性是它采用了一种局部贪婪优化策略：在每次迭代中，Modof 的输入分子将被优化到最佳状态，如果优化的分子没有更好的性质，它们将不会进行额外的 Modof 迭代。