直接分子构象生成

3D分子构象生成指的是给定2D分子图，生成对应的稳定3D分子构象，即生成每一个原子的坐标。相对于传统的基于实验或者数值计算的方法，基于机器学习的方法具有计算速度快、计算效果好的优势。在本篇论文中，作者提出一种基于深度学习的分子构象直接生成的方法，论文发表在Transactions of Machine Learning Research 2022。

方法

基于机器学习的分子构象生成已经存在不少探索工作。其中，很多工作基于某一中间量（键长、原子间距离的梯度、二面角等）来生成坐标，但可能会违反某些潜在的规则（如三角不等式）。所以，在本篇论文中，作者设计了一种方案（direct molecular conformation generation, 简记为DMCG）可以直接从2D分子图生成3D分子构象而不借助中间变量。

直接生成3D分子构象存在两个挑战：一是保持生成构象坐标的旋转平移不变性，二是对称原子的坐标的置换不变性。以图一中的分子为例进行说明。（1）如果任意旋转或者平移整个分子构象的坐标，分子构象应该具有不变性。在损失函数中，应体现为旋转平移后的构象和标准构象的误差应保持一致。（2）图一中的分子右侧的嘧啶（由原子12~17组成）应该沿着11-12的碳硫键具有对称性。也就是，如果将原子13、17的坐标对调，同时也对调原子14、16的坐标，分子构象应该保持不变。我们将一个分子中所有对称部分的置换操作记做。对图一来说，

, 其中

对于其余原子

。

图一：分子图例

为了保持这两种不变性，作者提出了一个新的损失函数：

其中R是真实的分子构象，

是预测的构象，

是任意一种旋转平移变换操作，

是分子图中所有对称部分的置换操作。关于求解

, 作者提出了如下策略：首先对于任意分子，计算它的

。这一步可以根据图同构算法得到。之后，对于任意

, 最优平移旋转操作可通过求解一个矩阵的特征值和特征向量得到。这个矩阵中的元素与R和

相关。根据这两步即可实现

的求解。具体细节在论文第2.1节。

另外，由于一个分子存在多个稳定的3D构象，作者采用VAE的训练框架实现一个分子到多个构象的映射。

除此之外，作者提出一种新的图神经网络结构，如图二所示。网络的每一层包含四个模块，它们工作方式如下：（1）对于每一个化学键，利用它两个端点的原子特征去更新该化学键的特征；（2）对于任意原子，利用和它相邻的化学键去更新原子的特征；（3）利用刚刚更新的原子和化学键特征去更新分子的一个整体表达（4）根据每个原子特征，预测它的坐标。分子的构象逐层优化，最终实现从一个初始随机噪声，得到一个真实分子构象。

图二：网络结构示意图

实验结果

实验结果见下图。从图可见，该文提出的方法在各项指标上都取得了目前最优的结果。

另外作者还将DMCG用在了分子对接（docking）的实验中。分子对接的第一步是获得配体小分子的3D构象，之后将其送入分子对接软件进行后续分析。通常人们会选择RDkit产生初始构象。这里，作者将构象生成这一步替换为采用深度学习工具，包括GeoMol, ConfGF, GeoDiff以及作者提出的DMCG。实验结果如图三所示。DMCG的初始构象能够获得更好的结合能，并且相对于真实的配体构象，DMCG的方法RMSD最小。同时我们也观察到，基于深度学习的方案效果，要好于基于RDKit的构象生成。

图三：分子对接实验。

拓展：2D & 3D 联合预训练

DMCG侧重于从2D分子图生成3D构象。基于DMCG的模型架构和训练方案，作者提出基于2D & 3D的联合预训练。该工作发表于KDD2022。训练目标如图四所示，是三个损失函数的加和。图四(a)展示的重构被掩码的原子属性（例如原子属性、电荷数等）和原子坐标。具体来说，给定一个2D的原子图和每个原子坐标，随机遮盖掉一部分原子和坐标，训练目标是重构被遮盖掉的部分。图四（b）展示的是给定2D分子图，重构它的3D构象。这部分采用的是DMCG的方案。图四(c)展示的是给定3D构象，恢复原子类型的属性。作者在PCQM4M-v2的数据集上进行预训练，训练预料约3.38M个 2D/3D数据对。预训练的网络结构和DMCG网络结构保持一致。