来源:智药局 最近,来自华盛顿大学David Baker教授课题组联合哈佛大学的科学家,描述了两种深度学习方法来设计指定的功能位点的蛋白质,而无需指定的的蛋白质二级结构。

7月22日,论文以“Scaffolding protein functional sites using deep learning”为题发表在Science杂志上。

01、文章概述

蛋白质的生化功能通常由构成功能位点的残基子集执行,因此具有新功能的蛋白质的设计可分为两个步骤。

第一步:确定功能位点的空间结构和氨基酸序列,这些可以通过量子化学计算、片段对接计算,以及从天然蛋白中提取来获得。

科学家重点关注第二步:运用给定的功能位点信息,设计折叠成包含该位点的三维(3D)结构的氨基酸序列。 从头设计功能性蛋白的难题是能够提出一个有稳定功能区域(活性位点、结合界面等)的整体骨架,并设计折叠成该结构的序列。但通常这这个过程分成两步。

因此,理想的功能性蛋白不仅能将功能位点嵌入蛋白质骨架中,以保持最小的形变,且蛋白质骨架具有多样性,还能同时生成骨架结构和氨基酸序列。

基于上述要求,研究人员使用两种深度学习方法来设计功能蛋白。

第一种方式是**“Hallucination”**(幻觉,预测优化):通过限制功能区域的片段结构,用复合损失函数优化氨基酸序列,以折叠到包含所需功能位点的结构,AI经过不断地迭代和优化,得到稳定的目标蛋白,并能在实验室中制造和研究。

简单来说,就像是对胡言乱语的单词强加一些要求,然后计算机通过不断地设计和改变,使之有意义,最终得到一个完整的故事。

第二种被称为**“ Inpainting”(修复,蛋白质修复):即将特定的序列/活性位点输入到软件(RoseTTAFold神经网络)中,软件可以在几秒内填补蛋白质结构的缺失部分,类似于使用语言模型补全给定的几个单词,该方法将蛋白质设计简化为信息缺失—恢复问题。**

Hallucination和Inpainting的流程图

两种方式没有高低优劣之分。

Hallucination(幻觉)耗费的算力更大,每次设计需要5—20分钟,但准确度更高。因此当信息缺失区域更大时,Hallucination的效果更好,产生的蛋白质结构也更具多样性。

02、应用案例及展望

实验测试表明,通过幻觉和修复产生的许多蛋白质都按预期发挥作用,包括生成潜在的潜在的RSV疫苗、金属结合蛋白、酶、以及结合PD-1 受体的蛋白质,这些设计的蛋白不仅能够表达特定功能,在结构和序列上和天然蛋白也有较大的差距。

例如对呼吸道合胞病毒(RSV)的验证,研究人员针对其抗原表位用AI设计了37个新兴蛋白质,其中三个以0.9-1.3μM的结合力与RSV的中和抗体结合,为相关疫苗开发提供新的思路。

(淡黄色—天然蛋白质支架,橙色——天然功能基序,灰色—幻觉设计的支架,紫色—幻觉设计的功能基序)

“通过这两种方式,可以在新设计的蛋白质中得到关键特征,这些特征可以是已知的结合基序,甚至是酶活性位点。”研究人员解释。

可以说,本篇文章证明深度学习可用于设计具有多种功能的蛋白质,包括制造出可用作疫苗、癌症治疗甚至是消除空气中碳污染的工具的蛋白质,对药物研发和合成生物学都有重要的应用。

“这些都是非常强大的新方法,但仍有很大的改进空间,”论文通讯作者David Baker说道,“例如,设计高活性酶仍然非常具有挑战性。”

值得一提的是,这篇论文已经是今年Baker课题组在Science发布的第三篇文章,整个课题组已经从蛋白质结构预测逐渐转型为蛋白质设计。

本篇文章中也集成了课题组此前的工作,包括hallucination的蛋白质设计方法,从靶点结构设计蛋白质等。参考资料:DOI:10.1126/science.abn2100 https://www.technologynetworks.com/drug-discovery/news/scientists-train-ai-to-generate-medicines-and-vaccines-363979

成为VIP会员查看完整内容
19

相关内容

医学领域的人工智能是使用机器学习模型搜索医疗数据,发现洞察,从而帮助改善健康状况和患者体验。 得益于近年来计算机科学和信息技术的发展,人工智能 (AI) 正迅速成为现代医学中不可或缺的一部分。 由人工智能支持的人工智能算法和其他应用程序正在为临床和研究领域的医学专业人员提供支持。
Science | ProteinMPNN : 基于深度学习的蛋白序列设计
专知会员服务
11+阅读 · 2022年9月18日
综述:基于进化和物理启发建模的计算蛋白设计
专知会员服务
16+阅读 · 2022年9月12日
蛋白质深度神经网络能量函数的构建
专知会员服务
15+阅读 · 2022年8月28日
AlphaFold、人工智能(AI)和蛋白变构
专知会员服务
11+阅读 · 2022年8月28日
Nat Mach Intel|用语言模型进行可控的蛋白质设计
专知会员服务
15+阅读 · 2022年7月14日
Science:深度学习建模,AI巧手设计特定蛋白质
ScienceDirect|AI 在3D化合物设计中的应用综述
GenomicAI
2+阅读 · 2022年2月9日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
DBGSL: Dynamic Brain Graph Structure Learning
Arxiv
0+阅读 · 2022年9月27日
Arxiv
15+阅读 · 2021年12月22日
Deep Learning for Generic Object Detection: A Survey
Arxiv
13+阅读 · 2018年9月6日
VIP会员
相关VIP内容
Science | ProteinMPNN : 基于深度学习的蛋白序列设计
专知会员服务
11+阅读 · 2022年9月18日
综述:基于进化和物理启发建模的计算蛋白设计
专知会员服务
16+阅读 · 2022年9月12日
蛋白质深度神经网络能量函数的构建
专知会员服务
15+阅读 · 2022年8月28日
AlphaFold、人工智能(AI)和蛋白变构
专知会员服务
11+阅读 · 2022年8月28日
Nat Mach Intel|用语言模型进行可控的蛋白质设计
专知会员服务
15+阅读 · 2022年7月14日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员