秒杀AlphaFold!Science:用AI一秒设计自然界全新蛋白质

2022 年 9 月 16 日 新智元



  新智元报道  

编辑:Aeneas 好困
【新智元导读】利用AI,我们现在可以在几秒之内设计出自然界中全新的蛋白质了。最近,来自华盛顿大学的科学家在Science上连发两篇论文,介绍了ProteinMPNN算法工具。

过去两年,机器学习彻底改变了蛋白质结构预测。

而现在,人工智能又在蛋白质设计领域引发了新一轮革命。

生物学家发现,使用机器学习,可以在几秒钟内创建出蛋白质分子。而在以前,这个时间也许是几个月。

并且,新方法准确率也更高。

9月15日,华盛顿大学医学院的生物学家在Science上连发两篇论文,介绍了他们的重大发现。

论文地址:https://www.science.org/doi/10.1126/science.add2187

也许你会问:创造出自然界中没有的蛋白质,对我们有什么意义?

意义可太大了。通过这些蛋白质,也许我们会开发出更多疫苗,加快治疗癌症的研究,研发出碳捕获工具,和全新的可持续生物材料。

论文地址:https://www.science.org/doi/10.1126/science.add1964

ProteinMPNN:蛋白质设计的革命

这几年,已经有几十种人工智能蛋白质设计工具被开发了出来,研究人员可以混合和匹配各种方法来得出一个可行的最终设计。

下面,我们就简单介绍一下其中的4种方法:

  • 固定骨架设计

给定一个预设蛋白质结构,然后用Al确定该蛋白质的氨基酸序列。

  • 序列生成

利用语言模型,让AI学会如何生成蛋白质。然后通过微调这些神经网络,得到特定蛋白质家族成员的新序列。

  • 结构生成

对蛋白质结构进行训练的神经网络可以生成完全新颖的蛋白质结构,但往往对输出的控制有限。

  • 序列和结构设计

使用一种叫做inpainting的方法,研究人员输入他们希望包含在蛋白质中的结构或序列,而Al网络则填补其余部分。

在这两篇新论文中,华盛顿大学医学院的生物学家表示,机器学习可用于比以前更准确、更快速地创建蛋白质分子。

David Baker是华盛顿大学医学院生物化学教授、2021年生命科学突破奖获得者。

据他介绍:「蛋白质是整个生物学的基础,但是要知道,现在我们在每种植物、动物和微生物中发现的所有蛋白质,都还不到所有可能的蛋白质的百分之一。有了这些新的软件工具,研究人员也许就能够找到长期的解决方案,去攻克医学、能源和技术上的难题。」

在自然界中,蛋白质被称为「生命的基石」,因为它们在所有生物的结构中都是必不可少的。在一个细胞生长、分裂、修复的每一个过程中,几乎都有蛋白质的参与。

可以说,蛋白质基本解决了生命的所有问题,生物学中的一切都发生在蛋白质上。

Baker介绍说:「为了解决生物体在进化过程中面临的问题,它们在进化中不断演变。人类今天在面临着新的问题,比如新冠病毒。如果我们能设计出一种新的蛋白质,让它像在进化过程中演变出的蛋白质一样,解决种种问题,那它的力量将是非常强大的。」

在生物的数百万年进化中,蛋白质的演化痕迹使科学家能够快速破译数百种蛋白质的3D形状

蛋白质由数十万个氨基酸组成,这些氨基酸以长链的形式连接起来。蛋白质中的氨基酸序列决定了它的三维形状。这种复杂的形状对于蛋白质的功能至关重要。

在2020年,人工智能实验室DeepMind宣布AlphaFold时,就已经让全世界大吃一惊了。这个AI工具利用深度学习,解决了生物学的一个大挑战:准确预测蛋白质的形状。而今年夏天,DeepMind宣布,AlphaFold现在可以预测科学上已知的所有蛋白质的形状。

通过预测蛋白质的结构,就可以洞察它们的表现。

在蛋白质预测领域,科学家已经取得了举世瞩目的惊人成绩。而在蛋白质设计领域, Baker的团队也取得了突破性进展。

使用ProteinMPNN设计的蛋白质的细节

要知道,按照一般的传统,研究人员设计蛋白质时,是通过调整自然界中已知的蛋白质。但是ProteinMPNN的出现,可以让研究人员从头设计所有可能的蛋白质,这就打开了一个新世界。

ProteinMPNN帮助研究人员解决了逆向的问题——如果他们心中已经有了一个确切的蛋白质结构,它就能帮助他们找到能折叠成这个形状的氨基酸序列。ProteinMPNN使用的的是一个在很多折叠成三维结构的氨基酸序列中训练出来的神经网络。

研究人员还要解决另外一个问题:要设计解决现实问题的蛋白质,比如消化塑料的新酶,他们需要首先弄清楚什么样的蛋白质骨架会有这种功能。
为了解决这些问题,Baker的团队使用了机器学习的方法,以下是详细介绍。

蛋白质设计的三个挑战


Baker的团队将蛋白质设计的挑战分解为三个部分,并且针对每个部分,都设计了特定的软件方案。

第一部分
首先,必须生成新的蛋白质形状。在 7 月 21 日发表在《科学》杂志上的一篇论文中,该团队表明人工智能可以通过两种方式生成新的蛋白质形状。

论文地址:https://www.science.org/doi/10.1126/science.abn2100
第一种被称为「幻想」(hallucination),类似于DALL-E或其他基于简单提示产生输出的生成AI工具。
通过「幻想」,用户可以在所有可能的蛋白质序列中进行随机搜索,并倾向于具有特定功能的序列。它使探索所有可能的蛋白质结构空间成为可能,这要归功于机器学习对庞大数据集的处理能力。
Baker对此解释道:「自然界中的蛋白质,只是采样很小的一部分,因此,如果你把搜索限制在自然界已经存在的那些序列上,你就不会有任何收获。」

使用「幻想」生成的对称环
第二种被称为「修复」(inpainting),类似于文字处理器中的自动完成功能,不过它针对的是蛋白质的结构和序列。
这种方法从功能位点开始填充额外的序列和结构,通过经过专门训练的RoseTTAFold网络在单次正向传递中创建可行的蛋白质支架。
用这两种方法,可以设计包含功能位点的候选免疫原、受体陷阱、酶活性位点等。
第二部分
其次,为了加快这一过程,团队设计了一种生成氨基酸序列的新算法。
在9月15日的Science上,他们介绍了这个名为ProteinMPNN的软件工具,它的运行时间大约为一秒。
比起以前最好的软件,ProteinMPNN要快200多倍!

ProteinMPNN架构
ProteinMPNN不仅速度快,它的结果还优于以前的工具,并且不需要专家定制就可以运行。
「 如果你有大量数据,神经网络是很容易训练的,但是对于蛋白质,我们并没有那么多例子。我们必须深入其中,确定这些分子中哪些特征是最重要的。你需要反复试错。」蛋白质设计研究所的博后研究员Justas Dauparas说。

用ProteinMPNN设计蛋白质
第三部分
在第三部分,该团队使用了由DeepMind开发的工具AlphaFold,来独立评估他们提出的氨基酸序列是否可以折叠成预期的形状。
「预测蛋白质结构的软件是解决方案的一部分,但它本身无法提出任何新东西。」Dauparas解释说。
「ProteinMPNN之于蛋白质设计,就像AlphaFold之于蛋白质结构预测。」Baker补充道。
在9月15日发表在Science上的另一篇论文中,Baker实验室的一个团队证实,使用新机器学习工具的组合,我们能够可靠地生成新的蛋白质,这些新蛋白质会在实验室中发挥作用。
「我们发现,使用ProteinMPNN制造的蛋白质更有可能按预期折叠,我们可以使用这些方法制造非常复杂的蛋白质组装体。」蛋白质设计研究所的博后研究员Basile Wicky说。

意义重大

利用这些新方法,研究人员创造出了一种在自然界中没有见过的全新蛋白质,比如一个巨大的纳米环。
Baker的团队正在试验,看这些环状结构是否可以用作定制纳米机械的部件。在电子显微镜下,这些环的直径大约比罂粟种子小十亿倍。或许在未来,这些纳米机器可以被用来疏通动脉。
使用机器学习来设计蛋白质,会让整个过程更快、更容易,并且让研究人员在更大的范围内创造出全新的蛋白质结构。这些软件比以前最好的工具还要快上200多倍,并且只需要最小的用户输入,这将大大降低蛋白质设计的门槛。
ProteinMPNN设计的结构特征
「这些研究正在改变整个生物分子结构预测和设计领域。」约翰霍普金斯大学化学和生物分子工程教授Jeffrey Gray说。「在理解生物学、健康和疾病上,以及设计新的分子减少人类自杀上,影响都是巨大的。」
Gray说,他的实验室正在将自己开发的深度学习工具与Baker团队的工具结合起来,以更好地了解免疫系统和免疫相关的疾病,并使用AI来设计治疗方法。
「AlphaFold通过解决蛋白质结构预测问题,将生物学带入了一个新时代,并展示了AI在生物学中发挥的革命性作用」。DeepMind的AI for Science团队负责人Pushmeet Kohli说。「ProteinMPNN是这种范式转变的另一个证明,从此我们可以为特定任务设计蛋白质」。
「这仅仅是机器学习在蛋白质设计中的一个开始。在接下来的几个月里,我们会努力改进这些工具,争取创造出更具动态性和功能性的蛋白质。」Baker说。
ProteinMPNN的计算评估
现在,ProteinMPNN可以在GitHub上免费使用了,研究人员可以用它创作出无限的新设计。
最后,Baker说:「现在,最有挑战性的地方在于……你要设计什么?」

作者介绍


David Baker博士是华盛顿大学基因组科学、生物工程、化学工程、计算机科学和物理学的副教授。他的研究小组专注于大分子结构和功能的设计。
同时,Baker博士还在担任蛋白质设计研究所的主任、Howard Hughes医学研究所研究员。他也是美国国家科学院和美国艺术与科学学院的成员。
此前,他在加州大学伯克利分校获得生物化学博士学位,并在加州大学旧金山分校做生物物理学博士后工作。
Baker博士曾获得国家科学基金会、Beckman基金会和Packard基金会的奖励。他是生命科学突破奖、蛋白质协会的Irving Sigal和Hans Neurath奖、ISCB的Overton奖、Foresight研究所的Feynman奖、AAAS Newcomb Cleveland奖、生物物理学的Sackler奖以及生化协会的百年纪念奖的获得者。
他的65名学生已经进入独立的教职,他已经发表了500多篇研究论文,获得了100多项专利,并共同创办了11家公司。
参考资料:
https://www.technologyreview.com/2022/09/15/1059550/an-ai-that-can-design-new-proteins-could-help-unlock-new-cures-and-materials/
https://newsroom.uw.edu/news/beyond-alphafold-ai-excels-creating-new-proteins
https://www.science.org/doi/10.1126/science.add2187


登录查看更多
0

相关内容

AlphaFold新竞争对手出现,ESMFold预测了6亿种蛋白质结构
专知会员服务
9+阅读 · 2022年11月7日
用于分子Linker设计的等变3D条件扩散模型
专知会员服务
5+阅读 · 2022年10月24日
AlphaFold、人工智能(AI)和蛋白变构
专知会员服务
10+阅读 · 2022年8月28日
AlphaFold预测出2亿种蛋白质结构,打开整个蛋白质宇宙
专知会员服务
13+阅读 · 2022年8月1日
Science:深度学习建模,AI巧手设计特定蛋白质
Science发布2021十大科学突破,AlphaFold居榜首!
新智元
0+阅读 · 2021年12月17日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Adaptive Synthetic Characters for Military Training
Arxiv
46+阅读 · 2021年1月6日
Arxiv
12+阅读 · 2019年2月26日
Arxiv
12+阅读 · 2018年1月28日
Arxiv
23+阅读 · 2017年3月9日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员