作为新药发现中最具挑战性和创造性的阶段,先导结构的发现和优化往往需要经历成百上千个潜在活性分子的合成和测试,是药物研发的关键瓶颈之一。药物分子设计本质上是一个多参数优化问题,其目标是设计和发现具有某些理想属性的新分子,因此如何生成新的分子结构及优化分子的关键属性(如生物活性、成药性、安全性、选择性和可合成性等)是影响药物设计成败的两个关键问题。据估计,类药化学空间内中可探索的分子数高达1023至1060,在如此巨大的化学空间内如何进行分子结构的智能生成并进一步实现结构的快速演化是药物分子设计面临的巨大挑战。

浙江大学智能创新药物研究院&药学院侯廷军教授团队、武汉大学陈曦团队、中南大学曹东升团队和腾讯量子实验室联合在《自然·机器智能》(Nature Machine Intelligence)发表论文“Multi-constraint molecular generation based on conditional transformer, knowledge distillation and reinforcement learning”,提出了一种多约束分子生成新方法MCMG,该方法可以高效地遍历复杂的化学空间以寻找满足多种性质约束的新型化合物,为先导结构的发现提供了功能强大的计算工具。

近几年,多类基于人工智能(AI)技术的深度分子生成模型在复杂化学空间探索上展现出巨大的潜力,有望成为从头药物设计的关键技术,如循环神经网络(RNN)、变分自动编码器(VAE)、生成对抗网络(GAN)和强化学习(RL)等。RL可用于微调生成模型的参数,以将自由参数空间引导至具有最佳目标函数值(例如生物活性)的集合。尽管 RL已被证实能够找到一组高度多样的生物活性分子,但它仍然需要大量的优化步骤才能通过奖励训练来学习这些模式。在之前的研究中,为了缓解这个问题并提升RL的效率,在RL操作之前首先使用迁移学习(TL)来快速聚焦化学空间中的某些区域。但TL的副作用是可访问化学空间的显著收缩,这使得模型容易陷入局部最优,这意味着生成的分子往往与 TL 训练集中的化合物高度类似。

为了通过预处理生成模型而不影响其在多约束任务中输出多样性的同时,并提高分子生成模型输出所需分子的效率,作者将Transformer、知识蒸馏(knowledge distillation)和RL结合提出了MCMG方法,并在平衡分子生成模型的收敛速度和输出多样性的挑战性问题上取得了实质性的进展。该方法首先使用条件Transformer(c-Transformer)来构建生成模型;然后,采用知识蒸馏模型来降低模型的复杂度,并提升生成分子的多样性;最后,通过RL对其进行微调。c-Transformer用于通过有效学习并将构效关系合并到有偏差的生成过程中来训练分子生成模型;知识蒸馏模型可降低模型的复杂性,便于通过RL对其进行微调,并增强生成分子的结构多样性。

图1. MCMG方法的工作流程图

MCMG模型对两个多目标药物分子生成任务的实际成功率分别达到89.26%和70.9%,与其他主流模型相比具有较大的领先优势(REINVENT为72.8%,RationaleRL为51.7%),这表明MCMG对多目标分子生成具有非常优秀的性能,可以产生更多的成功分子结构,提供了一种高效的方法来遍历大型复杂的化学空间以寻找潜在的候选药物分子。

浙江大学智能创新药物研究院&药学院为本论文的第一署名单位,浙江大学智能创新药物研究院和武汉大学计算机学院联培博士生王极可和腾讯量子实验室谢昌谕博士为共同第一作者,浙江大学侯廷军教授、武汉大学陈曦教授、中南大学曹东升教授为共同通讯作者。

原文链接:https://www.nature.com/articles/s42256-021-00403-1

参考链接: http://www.cps.zju.edu.cn/58878/list2.htm

成为VIP会员查看完整内容
29

相关内容

【Nature. Mach. Intell. 】图神经网络论文汇集
专知会员服务
45+阅读 · 2022年3月26日
Nature论文: DeepMind用AI引导直觉解决数学猜想难题
专知会员服务
29+阅读 · 2021年12月2日
专知会员服务
31+阅读 · 2021年9月7日
【ICML2021】学习分子构象生成的梯度场
专知会员服务
14+阅读 · 2021年5月30日
【NeurIPS 2020 】神经网络结构生成优化
专知会员服务
19+阅读 · 2020年10月24日
【NeurIPS 2020】生成对抗性模仿学习的f-Divergence
专知会员服务
25+阅读 · 2020年10月9日
使用深度学习,通过一个片段修饰进行分子优化
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月19日
A Comprehensive Survey on Graph Neural Networks
Arxiv
13+阅读 · 2019年3月10日
Arxiv
15+阅读 · 2018年6月23日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关VIP内容
【Nature. Mach. Intell. 】图神经网络论文汇集
专知会员服务
45+阅读 · 2022年3月26日
Nature论文: DeepMind用AI引导直觉解决数学猜想难题
专知会员服务
29+阅读 · 2021年12月2日
专知会员服务
31+阅读 · 2021年9月7日
【ICML2021】学习分子构象生成的梯度场
专知会员服务
14+阅读 · 2021年5月30日
【NeurIPS 2020 】神经网络结构生成优化
专知会员服务
19+阅读 · 2020年10月24日
【NeurIPS 2020】生成对抗性模仿学习的f-Divergence
专知会员服务
25+阅读 · 2020年10月9日
相关资讯
使用深度学习,通过一个片段修饰进行分子优化
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员