——背景——新冠病毒的肆虐给人类的生命健康和经济发展带来了重大威胁,研究者们也在针对新冠病毒的特效药上投入了大量的时间和精力,但目前安全有效的治疗策略仍有待进一步开发。而SARS-CoV-2 3CL蛋白酶(亦称主蛋白酶)由于其在病毒复制中发挥着关键作用、序列和结构高度保守以及在人体内不存在同源类似物等特点,成为了新冠特效药开发中最有前景的靶点之一。现今针对SARS-CoV-2 3CL蛋白酶小分子抑制剂的研究主要分为利用经验进行理性设计、高通量实验筛选、分子对接虚拟筛选、人工智能辅助的虚拟筛选等几类方法。目前报道的人工智能辅助的方法主要以建立抑制剂分子的活性分类模型为主,而今年5月,美国密苏里大学的许东教授和厦门大学的吴振教授课题组合作在Biomolecule上发表了题为“AI-Aided Design of Novel Targeted Covalent Inhibitors against SARS-CoV-2”的文章,提出了一种基于强化学习Q-learning的共价抑制剂分子生成策略。——方法——****数据集文章收集了所有已报道的SARS-CoV 3CL蛋白酶抑制剂分子共284个,随后用RDKit中的BRICS算法拆解分子,并按照片段质量 < 200 Da、非氢原子在1-25之间等条件过滤,最后得到了包含316个片段的分子片段库。模型框架文章将深度Q-learning网络与基于片段的药物设计结合提出了一种用于先导化合物生成的计算框架ADQN-FBDD,模型架构如图1所示。强化学习是关于决策的科学,其核心是通过采取动作来获得最多的奖励。Q-learning是强化学习中一种value-based的算法,其主要思想是将状态state、动作action以及在状态s下采取动作a所获取的收益期望Q(s,a)构建成一张表格Q table,根据Q值来选取能够获得最大收益的一系列动作。

图1 ADQN-FBDD模型框架图(A)强化学习示意图。(B)基于片段的工作举例。(C)状态更新路径示意图在文章中,每个状态就是一个分子结构图,给定一个初始结构,可选的动作有从片段库中选择增加片段、删除片段和不做改动三种。决定动作后,下一个状态的分子结构由SMARTS预定义的45条化学反应规则生成。生成状态的奖励函数由最终属性得分、特定片段得分(CSF)和药效团得分组成: 其中,fpro代表类药性(QED),基于8个分子特征计算得来,取值在0到1之间;wpro代表类药性的权重,默认值是0.1;fcon代表特定片段得分fCSF,其计算式如下:

SARS-CoV-2 3CL蛋白酶的结合中心可分为S1、S1’、S2和S4四个子位点,每个子位点对不同的结构有偏向性,文章把这些可促进与子位点作用的片段称为有利片段,nmatch则代表生成的结构中有利片段的数量,Ntotal是从文献工作中总结得到的有利片段总数目。wcon代表片段得分的权重,默认值为0.6。fpha表示药效团得分,主要取决于晶体结构的配体-蛋白质相互作用模式(PDB ID: 6LU7),当生成结构与定义的药效团匹配时则为1,反之为0;wpha表示药效团得分权重,默认值为0.4。初始结构选择如上所述,需要选定初始结构作为核心片段才能进行片段延伸等操作,这是一个关键而不简单的任务,依赖于药物化学家的经验,而4-氨基戊-2-烯醛和3-氨基-2-氧代丁醛都已被验证可与SARS或SARS-CoV-2 3CL蛋白酶的半胱氨酸145形成共价键(如图2所示),文章使用这两个骨架作为初始结构。

图2 初始结构示意图**——结果——文章使用上述的ADQN-FBDD模型自动生成了4922个有效结构,根据类药性>0.1和奖励函数R(s)>=0.6过滤得到了47个分子。随后对这47个分子进行了非共价对接、共价对接、共价与非共价对接的结合构象RMSD差异以及聚类分析,最终选择了分子#46(共价对接分数:-8.722 kcal/mol,RMSD: 1.71 Å)作为先导分子,并参照辉瑞PF-00835231、PF-07321332分子与蛋白的结合模式,用甲酰胺代替了醛,α-酮酰胺代替了 1,4 Michael 受体,得到46-14-1**;为了进一步提高分子极性,将酰胺替换成磺酰胺,得到46-14-2;为了提高分子的柔性,再在磺酰胺旁的碳链上延长一个碳原子,得到46-14-3(如图3所示),相关合成及验证实验正在进行中。

图3 分子#46及其优化后分子结构示意图**——小结——**与其他的深度学习方法对比,ADQN-FBDD有几个显著的特点:(1)直接修改和生成分子结构,没有格式转换问题;(2)大多数生成模型需要在特定数据集上进行预训练,并生成与给定训练集高度相似的分子,而ADQN-FBDD不需要任何预训练并且能够生成新分子。(3)生成分子的效率很高,因为ADQN-FBDD是基于分子片段的模型,包含了化学反应知识,而其他模型大多是基于原子的。(4)ADQN-FBDD对药物化学家来说具有高度的灵活性,他们可以轻松地将药物设计经验引入奖励函数中以指导新分子的生成。此外,ADQN-FBDD模型不仅可用于设计抗COVID-19的药物,此生成策略也可用于其他靶标基于结构的药物发现过程中。参考文献:[1] B. Tang et al., AI-Aided Design of Novel Targeted Covalent Inhibitors against SARS-CoV-2. Biomolecule12, 746 (2022). DOI: 10.3390/biom12060746.点击左下角的"阅读原文"即可查看原文章。


作者:王丽莹审稿:黄志贤编辑:卞薇洁 GoDesignID:Molecular_Design_Lab( 扫描下方二维码可以订阅哦!) 本文为GoDesign原创编译,如需转载,请在公众号后台留言。

成为VIP会员查看完整内容
6

相关内容

医学领域的人工智能是使用机器学习模型搜索医疗数据,发现洞察,从而帮助改善健康状况和患者体验。 得益于近年来计算机科学和信息技术的发展,人工智能 (AI) 正迅速成为现代医学中不可或缺的一部分。 由人工智能支持的人工智能算法和其他应用程序正在为临床和研究领域的医学专业人员提供支持。
Science | ProteinMPNN : 基于深度学习的蛋白序列设计
专知会员服务
10+阅读 · 2022年9月18日
主动学习预测结合自由能进行分子优化
专知会员服务
13+阅读 · 2022年9月18日
JCIM | 用于虚筛的累加式分子指纹算法
专知会员服务
5+阅读 · 2022年9月18日
ATMOL:利用对比学习预训练模型预测分子性质
专知会员服务
11+阅读 · 2022年8月14日
深度学习在分子生成和分子性质预测中的应用
专知会员服务
34+阅读 · 2022年6月19日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年10月4日
Arxiv
0+阅读 · 2022年10月4日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员