历史上,蛋白质工程主要采用自下而上的策略,使用天然存在的组分作为构建块。然而,为特定问题设计任意蛋白质序列和结构的问题,由于生物系统的复杂性,呈现出显著的挑战。在本工作中,我们着手开发蛋白质序列和结构的模型,用于预测和生成。我们展示了神经网络可以学习这些系统固有的模式,并为通过预测给定序列的蛋白质结构和反之亦然的蛋白质建模提供结果。生成模型还可以模拟蛋白质序列和结构的无条件分布。 为了建模蛋白质结构,我们提出了一种自编码器架构,能够生成广泛的蛋白质主链来模拟蛋白质结构。这些结构在二级和三级结构方面表现出局部和全局的一致性。使用传统技术设计可折叠至生成主链的序列,我们展示了该模型能够生成在硅中验证的新颖序列。为了这些主链生成更好的序列,我们随后介绍了 ESM-IF1,一个固定主链蛋白质设计的模型。我们设计了一个大规模系统,使用 AlphaFold 预测数百万结构。通过在合成数据上的训练,我们能够获得最先进的结果,并实现超过 50% 的序列恢复。
我们随后将大型蛋白质语言模型扩展到 150 亿参数(ESM-2),作为蛋白质序列的无条件模型。ESM-2 能够替代多序列比对(MSA)特征,从单一序列获得几乎最先进的结构预测结果。移除 MSA 特征提供了 60 倍的加速,使我们能够编目预测蛋白质结构的最大数据库。我们开源了 ESM Metagenomic Atlas,一个包含超过 2.25 亿高置信度预测结构的数据库,为我们提供了对自然蛋白质广泛多样性的前所未有的视角。最后,我们模型的速度和单序列特性使我们能够直接优化蛋白质序列与蛋白质结构的关系。我们展示了黑盒优化技术可以实现具有结构约束的蛋白质设计,如对称性、支架和结合。总之,我们提出了一系列能够模拟蛋白质序列和结构的条件和无条件分布的模型。
在过去的十年中,自然语言处理和计算机视觉领域——手工设计的特征已逐渐被具有学习表示的通用模型所取代。通过智能模型设计,如卷积网络和变压器,我们可以通过数据学习文本和像素的结构。在生物学中,常常使用多序列比对(MSA)来推理蛋白质序列,这是一种搜索遗传数据库以表示数据的相似序列的方法。类似地,处理蛋白质结构的技术使用基于物理的方法和统计力场来模拟这些复杂的相互作用。这篇论文基于先前的工作,使用在大量数据上学习的神经系统来模型蛋白质序列和结构。 蛋白质结构是氨基酸的聚合物。按照惯例,有二十种不同的氨基酸,可以被视为编码所有可能蛋白质结构的字母表。单独地,人体中的蛋白质链倾向于在100到1000个氨基酸之间,尽管短肽在信号传递中有用,较长的链条则在诸如人类肌肉等地方发现。许多生物系统是几个到许多十个蛋白质链的复合体,这些链条在一个机器中共同作用,尽管在这项工作中我们主要考虑单个链条。这些蛋白质链几乎存在于生物体中,这些分子机器之间的相互作用导致生命的复杂性。 虽然人们可能想象结构纯粹决定功能,但事实证明,我们目前的成像技术无法捕捉到移动蛋白质结构的复杂性。通过X射线晶体学成像蛋白质的标准方式意味着我们必须能够在晶体格子中捕获分子,这将动态蛋白质固定为空间中的固定结构。例如催化这样的快速作用功能往往无法在我们的结构数据集中捕获。 由于进化和自然选择选择了对生物体生存更有功能和帮助的序列,自然蛋白质的序列分布然后与功能相关。Rives等人[16]表明,学习序列概率分布的模型与蛋白质结构和功能属性相关。此外,由于霰弹枪测序技术的指数级增长,已知序列的数量与已知结构的数量之间的差异显著增加。在本工作时,UniRef [17]已经目录了超过2.5亿个蛋白质序列,而PDB [18]中的蛋白质链可用的不到50万个。 建模蛋白质结构的经典最先进方法依赖于Rosetta [19],一种通过统计学习的基于物理的库,使用力场方法。当蛋白质结构接近感兴趣的蛋白质时,这通常很容易,但确定一个最佳的三维支架通常很困难,使用Rosetta的蒙特卡罗方法往往被困在局部最小值中。因此,使用神经模型学习数据中的蛋白质结构分布引起了极大的兴趣。Anand和Huang [20]提出了一个可以通用生成低保真度蛋白质结构的模型,而Eguchi等人[21]将结构生成专门化到抗体。此外,设计通常限于蛋白质主链,这引起了一个问题,即哪些序列可能折叠到主链上。 这个问题被称为固定主链蛋白质设计,由于氨基酸身份受到蛋白质结构的局部相互作用的限制,这是一个更容易的任务。Rosetta有几个例程可以做到这一点,包括FastDesign,尽管它需要大量的蒙特卡罗调用,并且在实践中不可靠地工作。等变图神经网络的出现带来了性能的巨大提升,可以构建一个图,其中边由空间距离[22,23]确定。 最后,蛋白质序列到结构任务已经被认为是生物学中的一个“大挑战”。成功的方法[24,25]倾向于学习作为输入到Rosetta或其他类似系统的能量函数——通常是一个成对距离图,限制全局构型。这些系统的高潮使用distograms和成对角度约束来构建预测良好的蛋白质结构。AlphaFold在CASP14 [3]期间是结构预测性能的一个质的飞跃,几乎将错误率减半,完全是一个学习的模型。这项工作的主要创新是将氨基酸表示为由C-CA-N原子形成的空间参考框架云,这些原子在四面体键中固定。通过解开氨基酸之间的联系,优化问题变得更容易,神经模型能够进行原子级坐标预测。此外,四面体键提供了一个独特的等变表示,专为蛋白质结构的推断定制创造性模型。 随着这些方法的出现,设计蛋白质变得更加容易。传统的蛋白质设计和工程经常采用基于分段和搜索的方法[26,27,28,29,30,31,32]。基本的建筑块,如蛋白质结构的段,被使用,并且完整的蛋白质是从这些块逐步构建的。这个搜索问题往往非常非平凡,并且设计完整的蛋白质以满足一组规格具有高复杂性。通过神经方法生成蛋白质结构已经显示出前景,生成特定家族的肽和蛋白质[20,21,33,34,35,36]。 这篇论文在这些早期工作的基础上,达到了结构预测和反向折叠的最先进性能。我们解决这四个主题:(a)学习蛋白质序列的分布,(b)学习蛋白质结构的分布,(c)从给定的蛋白质结构主链预测蛋白质序列,以及(d)仅从蛋白质序列直接预测蛋白质结构。
纽约大学(New York University),成立于 1831 年,是全美最大的私立大学之一,也是美国唯一一座坐落于纽约心脏地带的名校。所设课程压力不大,但要求甚高。而34名诺贝尔奖得主更是使纽约大学光芒四射,享誉世界。纽约大学较为偏重人文艺术及社会科学,研究生院享有很高的声誉。属下的帝势艺术学院是全美最佳的美术学院之一;斯特恩商学院由于得到地灵人杰之助,是蜚声世界的著名商学院,聚集着世界最顶尖的人才。