3D分子构象生成指的是给定2D分子图,生成对应的稳定3D分子构象,即生成每一个原子的坐标。相对于传统的基于实验或者数值计算的方法,基于机器学习的方法具有计算速度快、计算效果好的优势。在本篇论文中,作者提出一种基于深度学习的分子构象直接生成的方法,论文发表在Transactions of Machine Learning Research 2022。

方法

基于机器学习的分子构象生成已经存在不少探索工作。其中,很多工作基于某一中间量(键长、原子间距离的梯度、二面角等)来生成坐标,但可能会违反某些潜在的规则(如三角不等式)。所以,在本篇论文中,作者设计了一种方案(direct molecular conformation generation, 简记为DMCG)可以直接从2D分子图生成3D分子构象而不借助中间变量。

直接生成3D分子构象存在两个挑战:一是保持生成构象坐标的旋转平移不变性,二是对称原子的坐标的置换不变性。以图一中的分子为例进行说明。(1)如果任意旋转或者平移整个分子构象的坐标,分子构象应该具有不变性。在损失函数中,应体现为旋转平移后的构象和标准构象的误差应保持一致。(2)图一中的分子右侧的嘧啶(由原子12~17组成)应该沿着11-12的碳硫键具有对称性。也就是,如果将原子13、17的坐标对调,同时也对调原子14、16的坐标,分子构象应该保持不变。我们将一个分子中所有对称部分的置换操作记做。对图一来说,

, 其中

对于其余原子

图一:分子图例

为了保持这两种不变性,作者提出了一个新的损失函数:

其中R是真实的分子构象,

是预测的构象,

是任意一种旋转平移变换操作,

是分子图中所有对称部分的置换操作。关于求解

, 作者提出了如下策略:首先对于任意分子,计算它的

。这一步可以根据图同构算法得到。之后,对于任意

, 最优平移旋转操作 可通过求解一个矩阵的特征值和特征向量得到。这个矩阵中的元素与R和

相关。根据这两步即可实现

的求解。具体细节在论文第2.1节。

另外,由于一个分子存在多个稳定的3D构象,作者采用VAE的训练框架实现一个分子到多个构象的映射。

除此之外,作者提出一种新的图神经网络结构,如图二所示。网络的每一层包含四个模块,它们工作方式如下:(1)对于每一个化学键,利用它两个端点的原子特征去更新该化学键的特征;(2)对于任意原子,利用和它相邻的化学键去更新原子的特征;(3)利用刚刚更新的原子和化学键特征去更新分子的一个整体表达(4)根据每个原子特征,预测它的坐标。分子的构象逐层优化,最终实现从一个初始随机噪声,得到一个真实分子构象。

图二:网络结构示意图

实验结果

实验结果见下图。从图可见,该文提出的方法在各项指标上都取得了目前最优的结果。

另外作者还将DMCG用在了分子对接(docking)的实验中。分子对接的第一步是获得配体小分子的3D构象,之后将其送入分子对接软件进行后续分析。通常人们会选择RDkit产生初始构象。这里,作者将构象生成这一步替换为采用深度学习工具,包括GeoMol, ConfGF, GeoDiff以及作者提出的DMCG。实验结果如图三所示。DMCG的初始构象能够获得更好的结合能,并且相对于真实的配体构象,DMCG的方法RMSD最小。同时我们也观察到,基于深度学习的方案效果,要好于基于RDKit的构象生成。

图三:分子对接实验。

拓展:2D & 3D 联合预训练

DMCG侧重于从2D分子图生成3D构象。基于DMCG的模型架构和训练方案,作者提出基于2D & 3D的联合预训练。该工作发表于KDD2022。训练目标如图四所示,是三个损失函数的加和。图四(a)展示的重构被掩码的原子属性(例如原子属性、电荷数等)和原子坐标。具体来说,给定一个2D的原子图和每个原子坐标,随机遮盖掉一部分原子和坐标,训练目标是重构被遮盖掉的部分。图四(b)展示的是给定2D分子图,重构它的3D构象。这部分采用的是DMCG的方案。图四(c)展示的是给定3D构象,恢复原子类型的属性。作者在PCQM4M-v2的数据集上进行预训练,训练预料约3.38M个 2D/3D数据对。预训练的网络结构和DMCG网络结构保持一致。

图四:损失函数流程图。

作者在分子属性预测,和2D到3D构象生成任务上进行了实验,都取得了令人满意的结果。

表2:分子属性预测任务。

在表2中,作者展示了若干分子属性预测任务的结果。表2(a)和2(b)展示的是在moleculeNet和OGB-molpcba上预测的结果。这两个数据集都是只有2D图信息,没有3D信息。表2(c)展示的是在一个毒性预测数据集上我们算法的效果,该数据集中的分子具备3D信息。

在2D分子图到3D构象生成的任务上,作者和未经过预训练的版本进行了对比。经过预训练后,在3D构象生成的任务上也取得了显著提升。

表3:分子构象生成任务。 参考资料 论文和代码

[1] Direct molecular conformation generation, TMLR22, https://openreview.net/forum?id=lCPOHiztuw, https://github.com/DirectMolecularConfGen/DMCG [2] Unified 2D and 3D Pre-Training of Molecular Representations, KDD22, https://arxiv.org/abs/2207.08806, https://github.com/teslacool/UnifiedMolPretrain

成为VIP会员查看完整内容
8

相关内容

医学领域的人工智能是使用机器学习模型搜索医疗数据,发现洞察,从而帮助改善健康状况和患者体验。 得益于近年来计算机科学和信息技术的发展,人工智能 (AI) 正迅速成为现代医学中不可或缺的一部分。 由人工智能支持的人工智能算法和其他应用程序正在为临床和研究领域的医学专业人员提供支持。
IJCAI 2022 | 端到端的几何transformer:用于分子属性预测
专知会员服务
12+阅读 · 2022年12月26日
基于等变扩散模型的三维分子生成
专知会员服务
8+阅读 · 2022年11月28日
GraphBP:3D空间中的靶向分子生成
专知会员服务
11+阅读 · 2022年9月27日
粗粒化分子构象生成
专知会员服务
9+阅读 · 2022年9月18日
MOG:利用能量模型生成数据集分布外的分子
专知会员服务
8+阅读 · 2022年7月16日
【MIT博士论文】分子图表示学习与生成的药物发现
专知会员服务
47+阅读 · 2022年6月28日
NeurIPS 2021 | 通过动态图评分匹配预测分子构象
专知会员服务
20+阅读 · 2021年12月4日
【ICML2021】学习分子构象生成的梯度场
专知会员服务
14+阅读 · 2021年5月30日
NIPS'21 | 通过动态图评分匹配预测分子构象
图与推荐
0+阅读 · 2021年11月29日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年12月28日
Arxiv
29+阅读 · 2022年9月10日
Arxiv
44+阅读 · 2022年9月6日
Arxiv
15+阅读 · 2022年6月14日
Arxiv
69+阅读 · 2022年6月13日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
15+阅读 · 2020年2月5日
Generative Adversarial Networks: A Survey and Taxonomy
Arxiv
27+阅读 · 2018年4月12日
VIP会员
相关VIP内容
IJCAI 2022 | 端到端的几何transformer:用于分子属性预测
专知会员服务
12+阅读 · 2022年12月26日
基于等变扩散模型的三维分子生成
专知会员服务
8+阅读 · 2022年11月28日
GraphBP:3D空间中的靶向分子生成
专知会员服务
11+阅读 · 2022年9月27日
粗粒化分子构象生成
专知会员服务
9+阅读 · 2022年9月18日
MOG:利用能量模型生成数据集分布外的分子
专知会员服务
8+阅读 · 2022年7月16日
【MIT博士论文】分子图表示学习与生成的药物发现
专知会员服务
47+阅读 · 2022年6月28日
NeurIPS 2021 | 通过动态图评分匹配预测分子构象
专知会员服务
20+阅读 · 2021年12月4日
【ICML2021】学习分子构象生成的梯度场
专知会员服务
14+阅读 · 2021年5月30日
相关资讯
NIPS'21 | 通过动态图评分匹配预测分子构象
图与推荐
0+阅读 · 2021年11月29日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
相关论文
Arxiv
0+阅读 · 2022年12月28日
Arxiv
29+阅读 · 2022年9月10日
Arxiv
44+阅读 · 2022年9月6日
Arxiv
15+阅读 · 2022年6月14日
Arxiv
69+阅读 · 2022年6月13日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
15+阅读 · 2020年2月5日
Generative Adversarial Networks: A Survey and Taxonomy
Arxiv
27+阅读 · 2018年4月12日
微信扫码咨询专知VIP会员