新智元报道
蛋白质是构成生命的基石,而如何快速、准确地确定蛋白质的三维空间结构,在生命科学领域一直是个难题。
复杂的蛋白质结构 图源:science
而现在研究人员利用全蛋白质组氨基酸协同进化分析和基于深度学习的结构建模,可完成对蛋白质结构的系统性预测。
随后,来自华盛顿大学生物化学系的Jue Wang等人提出了两种深度学习方法来设计「预设定功能位点的蛋白质」,并将其成果发表在Science上。
论文链接:https://www.science.org/doi/10.1126/science.abn2100
首先,他们发现了可折叠成包含功能位点的蛋白质序列。
然后,他们重新训练了一个结构预测网络,从而在只确定功能位点的情况下恢复蛋白质的序列和完整结构。
第一种方法叫Constrained hallucination,通过在序列空间中进行梯度下降以优化损失函数,并辅以特定问题的交互项,以设计候选免疫原呈现被中和抗体识别的表位,用于抗逃逸病毒抑制的受体陷阱,金属蛋白和酶,以及具有围绕已知结合基序扩展的设计界面的靶结合蛋白。
第二种Missing information recovery中,从所需的功能位点开始,共同填充蛋白质所需的缺失序列和结构信息,并通过经过更新的RoseTTAFold训练以从结构中恢复序列。
AlphaFold2 结构预测计算表明,这些方法可以准确地生成包含非常广泛的功能位点的蛋白质。
潜在诺奖候选人、蛋白质设计师
提到蛋白质设计,不能不提到大名鼎鼎的蛋白质设计师——David Baker。
他是华盛顿大学生物化学教授和霍华德休斯医学研究所的研究员,IPD 所长和首席研究员。
作为蛋白质设计和结构研究的领头人,这几年来一直被认为是诺奖的有力竞争者。
2020年11月30日,由 DeepMind公司开发的人工智能程序AlphaFold2,在蛋白质结构预测大赛CASP14中,对大部分蛋白质结构的预测与真实结构只差一个原子的宽度,达到了人类利用冷冻申镜等复杂仪器观察预测的水平,这是蛋白质结构预测史无前例的与大进步。
随后,David Baker 教授带领的研究人员,研发出了一款完全免费的RoseTTAFold,不仅拥有媲美AlphaFold2的蛋白质结构预测超高准确度,而且更快、所需计算机处理能力更低,
现在,David Baker教授带领的研究团队,进一步将AlphaFold2与RoseTTAFold相结合,成功用干蛋白质-蛋白质复合物结构的预测。
Baker表示,「在蛋白质设计研究所这忙碌的一年中,我们设计COVID-19疗法和疫苗并将其投入临床试验,同时开发出用于高精度蛋白质结构预测的RoseTTAFold工具。我很高兴科学界已经在使用 RoseTTAFold 服务器来解决突出的生物学问题」。
梦想和现实
OpenAI使用神经网络,仅凭文本就创建了大量的生动图像。
DALL·E算法是GPT-3的衍生产品,它通过检测训练中的模式,根据简单的文本提示生成了栩栩如生的图像。
构建蛋白质功能位点也是类似的。
其中,氨基酸是字母,蛋白质的功能位点是图像。神经网络可以通过训练来观察数据中的模式。训练结束,便可以对它进行测试,检测它是否能产生一个还算不错的解决方案。
该团队从之前的产品trRosetta入手。这是一个神经网络,最初的设计目的是基于氨基酸序列来构建新的蛋白质,同时能够预测它们的结构。
这个算法看起来很完美,因为它既能预测蛋白质的氨基酸序列,又能预测其结构。
然而,它并没有真正起作用。相比之下,RoseTTAFold表现得更为出色。
这个算法的强大之处就在于它的设计,即在纳米尺度上对每个氨基酸进行建模,为每个原子提供坐标。
RoseTTAFold可以就手头问题去预测一个特定的功能结构,并提出一个粗略的草图作为最终设计。
不过,研究小组隐藏了部分蛋白质序列(或结构)。
这款软件必须学会如何从嘈杂的无线电拦截中破译信息,也就是说,在这种情况下,你只能听到前几个单词,然后通过填空理解其真实含义。
RoseTTAFold解决了「缺失信息恢复问题」,自动完成氨基酸序列和结构,以高保真度构建了给定的功能区。
RoseTTAFold可以同时解决构建氨基酸序列,并为该位点生成骨架的问题。这就像把单词写在纸上:写信人除了要确保拼写无误,还要检查语法和语义是否正确。
该团队对他们的新发明进行了测试,设计出了几种药物和疫苗,这些药物和疫苗可能会成功对抗病毒和癌症。
在进行该项目期间,Jue Wang博士两岁的儿子因RSV肺部感染而住院,这种病毒通常表现出类似感冒的症状,但对小孩和老年人来说可能是致命的。
当时,Jue Wang博士正在使用该算法设计新的治疗方法,其中包括RSV上的潜在位点,以进一步测试疫苗和药物。这是一个相对良好的结构。
这个软件的设计概括了该疫苗可能结合的两个位点。深度学习方法在此奏效了!
在其他的几个测试中,该团队还为酶、蛋白质结合蛋白和抓住金属离子的蛋白质设计了功能位点。
这种方法为揭开天然蛋白质的神秘面纱打开了大门,同时也可能为合成生物学设计新的蛋白质。
总之,这是深度学习的另一个胜利,也是人工智能和生物学巧妙结合的「作品」。