编辑:汪丽 审稿:杨家豪 今天介绍一篇由亚盖隆大学Tomasz Danel等人于2022年10月发表在Drug Discov Today上的文章,题目是《Docking-based generative approaches in the search for new drug candidates》。在这篇综述文章中,作者团队总结了基于对接的生成模型,分子对接是基于结构的药物设计(SBDD)的领先方法。作者团队为这些方法提出了一个新的分类法,并讨论了它们对计算辅助药物设计(CADD)领域的重要性。

介绍

在许多情况下,药物发现的管道现在与各种计算机技术的应用相关联,包括机器学习(ML)方法、深度学习(DL)方法,它们可以对大量的数据进行快速有效的分析。基于DL的方法已经被用于定量结构-活动关系(QSAR)模型的开发,以改进复合库的基于dock的评分。此外,DL方法已被用于预测配体-蛋白质接触,并用于化合物的物理化学和吸收、分布、代谢、排泄和毒性(ADMET)特性的计算评估。

DL桥接了CADD中使用的两种基本方法:对接和生成方法。在本文中,作者团队回顾了在CADD中生成模型和对接的组合方法。它对设计新药候选物的潜在益处包括探索新化学空间的能力(通过生成方法)和利用可靠方法的即时评估(通过对接算法)。

背景

分子生成模型 在分子设计中,术语“生成模型”描述了能够产生新分子的计算机系统,通常具有一组预定义的特征。在药物研发中实施生成模型,可以加速新型治疗化合物的设计。

自回归模型是CADD中使用最广泛的生成模型之一。他们通过在生成的每一步中选择最有希望的修改来构建分子。化学中使用的另一类生成模型是基于潜在模型的。在这种方法中,分子从连续的潜在向量空间进行解码,这是通过数据枚举和模型训练人工构建的矢量化分子表示。自动编码器是这些模型的典型例子,包括变分自动编码器(VAE)和对抗性自动编码器。

基于对接的生成方法中使用的分子对接软件 生成模型开始利用分子对接来提出新的候选药物。最广泛用于与新化合物生成相关的任务的对接软件是AutoDockVina及其衍生产品。它是一个开源程序,在宽松的Apache许可下,广泛用于基于对接的生成模型。其他衍生产品包括:smin、QuickVina、Glide和gnina。神经网络NN 有时会接受对接分数的培训,并使用 NN 代替对接来加速该过程。

模型评估标准 用于评估生成模型的基本指标是生成化合物的有效性、独特性和新颖性。此外,药物相似性的测量,例如药物相似性(QED)或合成可及性(SA)(例如,由分子.one工具估计)用于评估这些分子的质量。在大多数药物发现项目中,拥有一组多样化的候选药物也很重要,这可以通过内部多样性或领域排除多样性(SEDiv)来衡量。最后,目标生成模型最重要的指标是基于对接的度量。

药物设计中基于对接的生成模型

作者团队将基于对接的生成模型分为两类: 基于口袋的模型和基于靶标的模型 (图1a)。前者使用2D表示或直接在袋内构建3D分子图来构建结合袋的描述并创建最适合所描述的结合位点的化合物。基于靶标的模型专门针对选定的药物靶标进行训练。它们可以通过强化学习、遗传算法或不同的迭代方法来指导。其他算法探索分子的潜在表示,以识别预训练生成模型中给定靶标的潜在结合物。

基于口袋的模型 基于口袋的模型使用结合位点的形状和物理化学特性,通过在模型中编码它们或使用对接评分函数来评估生成的构象(图 1a,b)。可以分别表示结合口袋,例如3D分子图或体素网格和图(GNN)或卷积神经网络(CNN)。这样,目标蛋白可以被替换,在某些情况下,模型无需重新训练,并且模型的应用可以直接转移到另一个靶标上。

图1

以结合口袋为条件的SMILES模型 Xu等人用粗粒度原子的库仑矩阵的特征值编码结合口袋,并使用条件RNN生成化合物。作为扩展,Zhang等人应用了对接中获得的配体-蛋白质复合物的相互作用指纹,使用LSTM网络生成化合物。两者都产生SMILES字符串。Zheng等人使用蛋白质编码作为优化的环境,实现了用于支架跳跃的变压器架构。使用TAPE从氨基酸中编码蛋白质,TAPE也是一种变压器结构。Skalic等人使用semi-3D方法生成化合物,从而使用形状字幕网络对SMILES字符串进行解码,从而仅对分子的形状进行编码和解码。3D CNNs编码分子的形状和药效特征。可以以类似的方式编码蛋白质,以确保配体与给定的蛋白质描述相匹配。BicycleGAN用于为单个输入蛋白质生成多种配体。

3D生成模型 Ragoza提出了以受体结合位点为条件的3D化合物结构的深度生成模型。作为起点,使用由CNN转换的原子密度网格将3D结合分子结构(包括目标结合口袋)编码到潜在空间。Luo等人开发了一种3D生成模型,该模型预测了原子存在于结合位点区域的概率。Li等人没有编码结合口袋,而是直接对接以对生成的分子进行评分。他们开发了一种包含两个网络的自回归方法:状态编码器和策略网络。Peng等人开发了Pocket2Mol,这是一种基于E(3)-等变生成网络的高效系统,该系统结合了GNN捕获目标结合口袋的化学和几何约束以及采样算法,从而产生以3D口袋为条件的新型配体候选物。

基于靶标的模型 在这里,作者团队介绍了基于对接的化合物生成的不同方法,这些方法由目标模型使用,在某种程度上,基于口袋的模型使用(图1c-f)。

遗传算法 遗传算法(GA)适合与对接分数一起使用作为适应度函数,并且具有不必训练的优点。一种众所周知的方法是GANDI,这是一种基于片段的模型,其中预对接片段通过遗传算法进行编码,并使用禁忌搜索来寻找形成最终化合物的最佳接头(适应度计算为局部结合能和与口袋相似性的组合)。AutoGrow4是一个基于GA的大型开源软件包,适用于从头优化和主要优化任务,每个任务都从不同的群体开始。

JANUS模型很有趣,因为它使用了两个种群:一个用于化学空间探索,由DNNs通过交叉和突变控制,另一个用于开发,仅由突变控制。在设计V-dock模型时,Choi等人通过添加经过训练以评估对接分数的NN来扩展MolFinder系统。受药物化学家欢迎的是另一个GA工具LigBuilder。LigBuilder V3提供了一种多药理学方法来进行配体计数。它能够参考化合物对多个目标的活性使用化学空间探索算法(CSEA)生成化合物。
强化学习模型 RL已用于更集中的化学空间探索,以寻找结合分子。对接分数可以用作生成分子的奖励,以指导生成过程。Jeon和Kim提出了一种算法,该算法通过顺序添加原子和键来构建分子。Yang等人提议用在每个生成步骤计算化学合理性片段和对接分数。Olivecrona等人提出REINVENT模型,该模型使用RL进行输出优化。首先,在ChEMBL的子集上训练生成RNN模型(先验)以生成有效的SMILES字符串。然后,使用RL对代理(先验的副本)进行培训,以针对某些特定目标(例如,改进的对接分数)修改先验的命题。Link-INVENT是针对基于片段的药物发现问题而设计的: 在一批片段的基础上,编码器-解码器提出了用RL优化整个连接的分子以实现最佳对接。

基于对接的评估的迭代模型 有些模型具有产生新分子的能力,但除了启发式之外,没有其他手段来优化它们以实现更好的对接。作者团队称它们为迭代,因为生成的分子被评估为某个目标,并相应地过滤。Ghanokta等人提出了一种模型,其中PathFinder从某些分子开始进行逆向合成分析,并列举所有可能的反应,同时保持核心固定。另一种模型基于蒙特卡洛树搜索(MCTS)。MCTS通过在每个选择扩展阶段向SMILES字符串添加单级来构建搜索树。然后在模拟阶段使用Vina docker评估大量或随机生成的完整字符串。类似的操作,采样和对接方法使用预先训练的JTVAE模型将分子(作者使用ben-zene)映射到潜在空间,然后从其邻近地区采样。

潜在空间优化 与前几节中描述的大多数方法相反,某些模型使用已经训练好的生成器的潜在空间来发现新的结合剂,而无需更改生成过程本身。OptiMol,一种使用VAE作为先验生成模型的算法。首先,对VAE进行训练以编码分子图并解码SELFIES表示。接下来,使用了两种潜在空间探索方案: 贝叶斯优化(BO)和自适应采样调节(CbAS)。在两种方案中,分子对接均用于评估从潜在空间解码的化合物并更改采样策略。Cieplinski等人提出了另一种潜在空间优化方法,他们训练了两个VAE模型,SMILES VAE和Grammar VAE作为先验生成器,并使用经过训练的预测模型将潜在向量映射到对接分数作为替代函数。这样,通过从潜在空间中的随机初始点开始的梯度上升最大化模型预测,可以在潜在空间中找到新的结合物。

结论

生成ML方法构成了CADD工具的重要组成部分。它们能够探索新的化学空间,因此,它们在寻找新药的方案中的受欢迎程度正在不断扩大。为了提高生成方法提出对特定靶标有活性的化合物的有效性,最近对它们与分子对接的组合进行了深入探索。作者团队总结了基于对接的生成方法,并提出了它们的分类法。此外,作者团队提出的基于对接的生成模型方法有待进一步开发。 参考资料 Danel, T., Łęski, J., Podlewska, S. and Podolak, I.T., 2022. Docking-based generative approaches in the search for new drug candidates. Drug Discovery Today, p.103439.

成为VIP会员查看完整内容
5

相关内容

医学领域的人工智能是使用机器学习模型搜索医疗数据,发现洞察,从而帮助改善健康状况和患者体验。 得益于近年来计算机科学和信息技术的发展,人工智能 (AI) 正迅速成为现代医学中不可或缺的一部分。 由人工智能支持的人工智能算法和其他应用程序正在为临床和研究领域的医学专业人员提供支持。
药物发现中的深度学习
专知会员服务
39+阅读 · 2022年11月14日
用于分子Linker设计的等变3D条件扩散模型
专知会员服务
5+阅读 · 2022年10月24日
【MIT博士论文】分子图表示学习与生成的药物发现
专知会员服务
47+阅读 · 2022年6月28日
ICML 2022 | LIMO: 一种快速生成靶向分子的新方法
专知会员服务
3+阅读 · 2022年6月26日
综述分享 | 深度学习在分子生成和分子性质预测中的应用
基于预训练语言模型的文本生成
专知会员服务
27+阅读 · 2022年1月28日
基于表格数据的深度学习方法
专知会员服务
35+阅读 · 2021年10月19日
【干货书】数据挖掘药物发现,347页pdf
专知会员服务
130+阅读 · 2021年9月20日
药物发现中的深度学习
专知
2+阅读 · 2022年11月14日
GPU 计算和深度学习在药物发现中的转型作用
机器之心
1+阅读 · 2022年5月2日
ScienceDirect|AI 在3D化合物设计中的应用综述
GenomicAI
1+阅读 · 2022年2月9日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年2月6日
Arxiv
0+阅读 · 2023年2月5日
Arxiv
12+阅读 · 2021年6月21日
Arxiv
11+阅读 · 2018年5月13日
VIP会员
相关VIP内容
药物发现中的深度学习
专知会员服务
39+阅读 · 2022年11月14日
用于分子Linker设计的等变3D条件扩散模型
专知会员服务
5+阅读 · 2022年10月24日
【MIT博士论文】分子图表示学习与生成的药物发现
专知会员服务
47+阅读 · 2022年6月28日
ICML 2022 | LIMO: 一种快速生成靶向分子的新方法
专知会员服务
3+阅读 · 2022年6月26日
综述分享 | 深度学习在分子生成和分子性质预测中的应用
基于预训练语言模型的文本生成
专知会员服务
27+阅读 · 2022年1月28日
基于表格数据的深度学习方法
专知会员服务
35+阅读 · 2021年10月19日
【干货书】数据挖掘药物发现,347页pdf
专知会员服务
130+阅读 · 2021年9月20日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员