1957 年,John C. Kendrew 和 Max F. Perutz 通过 X 射线晶体学确定了第一个蛋白质结构。不久之后,Christian B. Anfinsen Jr. 提出蛋白质的结构在热力学上是稳定的,似乎可以根据蛋白质的氨基酸序列来预测蛋白质的三维结构。
然而,蛋白质的结构复杂性远超人们的想象。依据中心法则,蛋白质主要是由 DNA 转录成 RNA,再翻译成肽链后组装而来,一个蛋白质分子是由一条或几条多肽链组成,多肽链则折叠成特有的形状。同时,蛋白质分子的专一形状是由4个层次的结构决定的,包括一级、二级、三级和四级结构,前一级结构决定后一级结构。
其中多肽链的氨基酸序列是一级结构,一级结构中的部分肽链卷曲或折叠产生二级结构。二级结构经过一系列的构象改变形成三维结构即三级结构,一般为球状或纤维状。三级结构有特定的结构域,形成结合位点或调节位点,可以结合特定结构的物质,行使特定的功能。两条或两条以上的多肽链组成的蛋白质,可以形成四级结构。 图 | 蛋白质 3D 结构(来源:Nat Commun) 因此,从 Christian B. Anfinsen Jr. 理论提出至今 50 多年的时间里,科学家始终无法解决蛋白质折叠的问题,对于蛋白质结构的了解依旧十分有限。
同时,AlphaFold 的神经网络能在几分钟内预测出一个典型蛋白质的结构,还能预测较大蛋白质(比如一个含有 2180 个氨基酸、无同源结构的蛋白质)的结构。该模型能根据每个氨基酸对其预测可靠性进行精确预估,方便研究人员使用其预测结果。 图 |研究人员使用 RoseTTAFold 预测的人类白细胞介素 12 与其受体结合的 3D 视图(来源:UW Medicine Institute for Protein Design) 随后,在今年 7 月份,华盛顿大学医学院生物化学系教授、蛋白质设计研究所所长 David Baker 领导一支计算生物学家团队,成功开发一款名为 RoseTTAFold 的工具,基于深度学习,能够根据有限的信息快速准确地预测出目标蛋白质的结构,达到与 AlphaFold2 不相上下的准确度。