2022年4月27日,DeepMind科学工程师Tunyasuvunakool在Nat Rev Mol Cell Bio杂志发表评论文章,讨论和分析了AI预测蛋白质结构的前景、机遇和挑战。
2020年的CASP大赛标志着一项重大进展。机器学习方法AlphaFold预测了大多数目标蛋白的结构,评估人员称其具有"与实验相媲美"的准确性。本文讨论了蛋白质结构预测方法的影响,强调了令人兴奋的研究领域和剩余的挑战。
机器学习是人工智能的一个领域,它涉及到在不明确编程的情况下使计算机执行复杂任务。这通常涉及收集大量的输入实例数据集,并在每种情况下指定正确的输出。在训练期间,机器学习模型的参数被逐渐调整,以使其在训练集上的输出更加正确。在蛋白质结构预测的情况下,输入将包括目标氨基酸序列,加上任何进化相关的序列和模板结构,而期望的输出是折叠蛋白质的原子坐标。一个模型的确切细节和它的训练程序会极大地影响性能,所以直到最近才开发出可以解决这个问题的高精确度的方法。
好的计算方法应该使我们有能力做更好的实验,这是其重要性的核心。我们在蛋白质结构预测对实验生物学的影响中看到了这一点。对于X射线晶体学家来说,良好模型的常规可用性使得更多的结构可以通过分子置换来解决,减少了花在实验阶段的时间。同时,在低温冷冻电镜中,将一个高精度的模型对接到密度图中,可以加速模型的建立,并有可能提高其保真度。事实上,到目前为止,一些最令人印象深刻的应用是在综合建模领域,其中低温电镜、X射线晶体学和结构预测被结合起来,以建立大型分子机器的模型。在这种情况下,预测和实验相互促进,实验数据也有助于验证结构模型。
更广泛地说,蛋白质结构预测可以支持对于表达和功能研究的有效规划,为构建对象 (construct) 的设计和标签的最佳位置提供建议。一个特别有用的应用可能是识别要突变以调节蛋白质功能的残基。与蛋白质复合物预测相结合 (将在后面讨论),这为更容易地破坏蛋白质功能和相互作用提供了可能。现在,良好的结构预测的普及,以及对这些方法认识的提高,使得结构指导的实验计划成为常规。
实验测定和预测之间的一个主要区别是,后者可以大规模地进行,从而使需要大量结构数据的一系列不同的应用成为可能。例如,现在有了涵盖整个蛋白质组的预测结构,就有可能将其他大规模的生物数据映射到预测上,允许在适当的背景下研究突变和翻译后修饰。预测数据库也可以用结构感知算法进行搜索,可能会导致更敏感的蛋白质分类。一般来说,大型数据集的可用性支持生物信息学方法的发展。一个很好的例子是将AlphaFold的置信度量纳入蛋白质失调预测的工具中。 可以说,大规模的预测也为我们提供了一个更清晰的蛋白质组结构的知识图景。在AlphaFold蛋白质结构数据库中,除了任何结构良好的结构域外,我们还选择显示对带状低置信区域的预测。虽然这种观点与实验提供的观点有很大不同,但它直接承认了这些区域在重要蛋白质中的普遍存在,其中一些可能对应于内在的无序。
生物学主要关注的是具有许多相互作用成分的复杂系统的行为。解决这类系统的一个自然的下一步是预测蛋白质复合物的结构。为此,最近开发的单链方法很快就被社会各界用来支持蛋白质复合物的预测,现在已经有了像AlphaFold Multimer这样专门为这项任务训练的模型。结构预测已经被大规模地应用于识别新的真核生物复合物和对已知复合物进行结构描述。 鉴于蛋白质相互作用的生物学重要性,这必将是未来研究的一个令人兴奋的领域。我们可能很快就能获得一幅显示这些相互作用如何发生的分子细节的图片,而不是把蛋白质-蛋白质相互作用网络看作是二维图。已经预测的复合物可以成为一个有用的工具,尽管像任何预测一样,它们应该被谨慎地解释。复杂的预测仍然是一个具有挑战性的问题,而且目前的模型不如单一多肽可靠。特别是要考虑到假阴性的可能性,即对于一对确实有相互作用的蛋白质,没有预测到可靠的界面。
随着该领域的快速发展,预测方法被用来解决其他与蛋白质有关的问题,保持对方法性能的基准评估的谨慎态度非常重要。为一个新的计算方法设计一个适当的评估并不简单。需要小心翼翼地确保任务与生物学家在实践中使用该方法的方式相一致,并且与他们相关的数量也是衡量标准。为了进行严格的评估,测试案例必须与模型在训练中看到的案例有足够的区别,否则它可能会通过鹦鹉学舌来欺骗训练数据。在生物学中,进化关系使得测试/训练集的分割更加困难,即使一个特定的蛋白质没有出现在模型的训练集中,也许一个接近的同源物会出现。考虑负面例子也可能是有帮助的:如果一个模型的目的是预测复合物的结构,那么对于两个没有相互作用的蛋白质,它应该输出什么,以清楚地传达这一点? 最后,在结构预测领域,事实证明在模型输出中加入置信度是非常有用的,可以为生物学家提供一些指导,让他们知道应该相信预测的哪些部分。类似的置信度指标在其他领域可能会有所帮助。
看到成功应用蛋白质结构预测模型的方式多种多样,这是非常了不起的。然而,最新方法所能解决的问题是有限的。特别是,它们并不具备回答从根本上讲属于蛋白质能量学的问题的能力,例如预测一个蛋白质可能采取的所有构象,或者确定一个突变对稳定性或与其相互作用伙伴的结合亲和力的影响。 最先进的结构预测还缺少在实验结构中发现的非蛋白质成分--核苷酸、离子、翻译后修饰和配体。有时可以根据预测的蛋白质的局部几何形状推断出离子等成分的存在。然而,预测是在不知道其他分子存在的情况下进行的,这使得模型无法根据生物环境进行调整。这些挑战可能需要大量的进一步创新来解决。 生物学中的机器学习数据是什么使最近在蛋白质结构预测方面的进展成为可能?一个因素是对问题的具体化和对进展的评估,这一点必须归功于CASP社区。然而,第二个值得注意的因素是蛋白质数据库 (PDB) 的形式提供了一个优秀的数据集。PDB的几个特点使其非常适合于机器学习:整个数据集很容易下载,文件具有一致的格式,每个条目都提供了高维数据而不是单一的测量,并且涵盖了蛋白质空间的广泛区域。PDB也很全面,基本上所有发表的结构都存放在那里。计算结构生物学极大地受益于PDB创始人的远见卓识,以及对该项目的持续有力支持。如果其他领域也能实现类似的有利态势,那么结构预测将成为生物学中机器学习的众多成功案例之一。 参考资料 Tunyasuvunakool, K. The prospects and opportunities of protein structure prediction with AI. Nat Rev Mol Cell Biol (2022). https://doi.org/10.1038/s41580-022-00488-5