MOG：利用能量模型生成数据集分布外的分子

编译 | 董靖鑫审稿 | 张翔

今天给大家介绍的是ICLR 2022 under review的一项有关分子生成的研究。作者提出的模型MOG利用能量模型生成数据集分布外的分子。不同于传统的最小化能量策略，**MOG通过在生成过程中引入多个量中心到朗之万动力学方程中增强能量。**实验结果表明，MOG能够显著提高生成分子的新颖性和对接分数。此外，这种基于能量增强的策略能被广泛应用在目前的模型中，增强它们生成的新颖性。1 介绍药物发现的核心是寻找具有理想化学性质的分子。目标属性包括从相对简单的化学统计量（油水分配系数logP，合成可及性SA，定量评估类药性QED，分子重量MW等）到依赖于三维相互作用的复杂分数（量子力学属性，分子动力学模拟，对接分数）。评估深度生成模型产生的分子最常用的指标是logP和QED，但优化这些指标往往与现实世界中药物发现问题是背离的。对接分数对局部分子结构是非线性的，有许多局部最优解。在化学空间中探索对接分数高的分子，可能会更接近于真实世界的分子。

目前的学习分布的深度模型最大的问题在于它们仅能有限地学习数据集的分布，生成的分子与训练集高度相似。而利用强化学习或蒙特卡洛这种不需要从真实数据中采样的模型可能带来其他问题，如训练时间长、对平衡探索和利用敏感、较大的方差，以及缺乏已知分布的信息。

2 模型

图1 MOG架构

图2 2D示例上的生成。训练分布由8个各向同性高斯斑点组成，红色表示样本。生成的有着特定能量中心的样本由相应的颜色表示。

在本文中，作者提出MOG（图1），利用能量模型可以明确生成已知分布外的分子。MOG中修改的朗之万动力学方程更偏向于生成能量值高，靠近能量中心的分子，这意味着把分子推向低似然的区域，从而更大程度探索分子空间。MOG由能量网络和属性网络两个网络组成。作者采用GraphEBM作为能量网络建模分子图的能量函数，从而控制生成的分子的预期似然。属性网络的架构与能量网络架构基本一致，用于预测分子对应某种蛋白靶标的对接分数，从而使得生成的分子性能更优越。两个网络都以真实样本以及经朗之万动力方程处理过的噪声样本作为输入。MOG设置多个能量中心，用不同的能量中心优化每个随机初始化的分子（图2）。

3 实验 3.1 随机生成

结论：（1）MOG与GraphEBM的模型结构相同，但朗之万动力学方程不同。与GraphEBM相比，MOG新颖性的提高可以归结为多个能量中心的作用。总体结果表明能量增强策略更有利于从训练分子中产生不同的分子。

（2）FREED不直接从训练分子采样，在ZINC250k数据集上的新颖度很低，因为它的片段词汇表是从数据集中提取的。GCPN既没有直接从训练分子采样，也不使用片段词汇表，这能解释其具有相当高的新颖性的表现。MOG方法优于GCPN方法，证明了利用已知分布知识生成分布外分子的有效性。

3.2 对接分数

结论：与基线相比，MOG可以生成具有更高对接分数的分子，同时实现近乎完美的有效性、唯一性和新颖性。上述结果表明，通过能量中心与属性网络结合修改的朗之万动力学方程可以极大地促进了寻找最优解，避免局部最优，从而获得了更高的对接分数。

3.3 在MARS模型上应用该策略

结论：随着能量分数的增加，MARS模型的新颖性得到了明显的提高，同时具有较高的成功率和多样性。这是因为原始的MARS没有任何约束条件限制生成的分子与已知的活性分子不同，但改良后的MARS考虑了能量分数可以生成分布外的分子。作者表明这种将能量值视为分数或奖励的策略可以很容易地融入到大多数现有模型。

4 总结在这项工作中，作者旨在生成分布外的分子解决现有分子生成方法探索不充分的问题。具体而言，作者提出了一种新的框架MOG，该框架利用改进的朗之万动力学生成对接分数高且存在于分布外的分子。该方法通过多个能量中心增加分子的能量，从而探索低可能性的区域。实验表明MOG可以生成新的分子，并找到具有更高对接分数的分子。此外这种生成策略可以极大地帮助现有的分子生成方法提高新颖性。

参考资料 Lee S, Lee D B, Hwang S J. MOG: Molecular Out-of-distribution Generation with Energy-based Models[J]. 2021.

成为VIP会员查看完整内容