编译 | 王建民 AlphaFold 闯入了我们的生活。一种强大的算法,强调了生物序列数据和人工智能(AI))的力量。AlphaFold有附加的项目和研究方向。一直在创建的数据库承诺了无数的应用程序,这些应用程序具有巨大的潜在影响,但仍然难以推测。人工智能方法可以彻底改变个性化治疗并带来更明智的临床试验。他们承诺在重塑和改进药物发现策略、选择和优先考虑药物靶点组合方面取得巨大飞跃。研究人员简要概述了结构生物学中的人工智能,包括分子动力学模拟和预测微生物群与人类蛋白质之间的相互作用。研究人员强调了由深度学习驱动的AlphaFold在蛋白质结构预测方面所取得的进步及其对生命科学的强大影响。同时,AlphaFold 并没有解决长达数十年的蛋白质折叠挑战,也没有识别折叠途径。AlphaFold提供的模型没有捕捉到像折叠和变构这样的构象机制,而这些机制植根于系综中,并由其动态分布控制。变构和信号是群体的特性。AlphaFold 也不会生成本质上无序的蛋白质和区域的系综,而是通过它们的低结构概率来描述它们。由于 AlphaFold生成单级结构,而不是构象系综,它无法阐明变构激活驱动热点突变或变构耐药的机制。然而,通过捕获关键特征,深度学习技术可以使用单一预测构象作为生成多样化系综的基础。
背景
AlphaFold克服了长达数年的瓶颈,有力地展示了人工智(AI)在生物研究中的力量。AlphaFold结合了许多深度学习的创新,以实验规模的分辨率或接近实验规模的分辨率预测蛋白质的三维结构,激发了社会各界对功能、进化和疾病研究的重新思考。快速生成的精确结构的庞大数量表明,新的、雄心勃勃的、推动前沿的研究将会出现。它也指出了应该重新考虑的研究项目。数据库中正在汇编的丰富的高质量数据已经加强了需要蛋白质结构的研究,如绘制信号通路中的结合点和相互作用,以及识别热点,包括潜在的和罕见的癌症驱动突变。最深远的影响可能是加速和改善新药的研发,以及产生可用于这一重要目标的数据。人工智能的发展和应用可能会进一步帮助预测向下游传播的信号是否足够强大,以达到其基因组目标来激活(抑制)基因表达,并预测路径。总的来说,这些强大的方法和它们所创建的数据库改造和改变了涉及使用结构的传统和正在进行的研究。它们也使研究人员更有勇气退后一步,重新思考和创新我们的项目。
AlphaFold的成就得益于蛋白质数据库(PDB),目前其规模已接近20万个实验确定的结构。它对PDB中的蛋白质序列进行了训练,并使用输入序列查询蛋白质序列的数据库来构建多序列比对。然而,它惊人的成功并没有使研究人员对蛋白质序列究竟是如何折叠的有更深入的机理理解,因此没有从序列上协助蛋白质的折叠。
研究人员注意到AlphaFold预测蛋白质序列的单级结构的 AlphaFold 无法直接解决基于整体构象状态种群的变构机制。变构即信号随着种群的变化而动态传播,是调节和细胞寿命的基础。由于靶向非保守变构位点具有更高的特异性和更低的毒性,变构也越来越多地出现在变构药物中。 那么能否预见 AlphaFold 有助于揭示变构热点突变和变构药物发现的机制?AlphaFold 预测的刚性结构可以提交给生成此类系综的MD模拟。同时,正如研究人员在此讨论的那样,其他基于 AI 的策略可以直接协助此类工作,最有效的是通过加速和增强 MD 模拟。也可能会继续努力利用人工智能预测变构结合位点。尽管如此,有必要回想一下,变构位点的有效性取决于该位点的稳定相互作用和有效变构信号的启动,这将更具挑战性。当前预测变构结合位点的方法仅针对前者。从这个意义上说,它们类似于正构位点的表征,只是它们的评分是基于变构位点的统计数据。
正构药物阻断活性部位;变构药物通过与远处的位点结合来改变蛋白质的活性状态,包括活性位点。AlphaFold 无法处理蛋白状态的整体变化。人工智能策略可以,但需要超越对稳定交互的预测。
预测内在无序蛋白质(IDP))和区域(IDR)的结构是 AlphFold 不足的另一个问题。无序蛋白质(区域)的特征是广泛且异质的整体,其中相对构象稳定性的差异很小,甚至很小,并且障碍很低。构象相互转换,导致 AlphaFold 可靠地捕获那些最受青睐的或构象分布的概率较低。然而,对构象的利用、学习和挖掘可以利用AI。
以人工智能为动力的算法,被输入庞大的数据,并由新兴的大规模计算能力促成,正在推动计算生物学的革命(。与量子计算不同,在人工智能和数据驱动的计算方面,必要规模的技术创新已经在手。
蛋白折叠与蛋白结构预测
蛋白质折叠 蛋白质折叠包含两个问题:第一,蛋白质的氨基酸序列如何决定其 3D 原子结构的概念性问题;第二,如何从单一的氨基酸序列出发,成功地预测三维结构,而不使用与其他可用的(同源、同族)序列或任何相关序列结构有关的信息。这种计算预测方法的指导思想是:这就是蛋白质在自然界的折叠方式。溶液中基于单一序列的预测考虑了与氢键、离子对、范德华作用力以及主要由水介导的疏水相互作用有关的力,而疏水效应是蛋白质折叠的驱动力。这个正式的折叠问题出现在六十年前,同时出现的还有第一个原子分辨率的蛋白质结构。该结构导致了热力学问题,即决定蛋白质结构的原子间力的平衡,蛋白质如何能够快速折叠,也就是路径动力学,以及蛋白质结构预测的计算问题。Christian Anfinsen和他的同事提出的具有里程碑意义的热力学假说指出,蛋白质的原生结构是其热力学上最稳定的结构,它只由其氨基酸序列和所处的条件决定,动力学不起作用。没有其他的考虑因素,也就是说,它是在实验室里合成的,还是在核糖体上合成的,还是经历了伴侣的辅助折叠。折叠范式规定,未折叠的分子将总是自发地折叠成相同的形状;也就是说,线性氨基酸序列指定了一个蛋白质的折叠原生状态。Christian Anfinsen的热力学假说强调能量景观的形状,其中原生状态是自由能最低的状态。在计算上,这种描述提出了预测蛋白质结构的问题,形成了主导该领域数十载的方法的基础。如果只有序列是重要的,再加上物理化学力,那么 "好的 "算法就应该有可能折叠它。假设晶体结构代表最小能量状态,那么预测结构的 "好坏 "就可以通过与它的比较来评估。Anfinsen的描述结合了备选构象的采样、按能量排序和识别最低能量状态。随后的努力集中在二级结构的预测上,尽管疏水相互作用的主导作用表明二级结构是三维结构及其原因的结果。与变性状态相比,原生结构的稳定性差异很小(5–10 kcal/mol),这使预测方法所面临的挑战更加复杂。
很早以前,Cyrus Levinthal就将蛋白质和预测算法面临的关键问题概念化:在生物条件下,蛋白质搜索折叠空间并达到其最稳定的原生状态的巨大时间尺度。对于预测算法的采样骨干状态,搜索空间大小随着链的长度呈指数级增长,成为一种不可能。Levinthal认为,没有必要搜索这个巨大的空间,因为能量景观是漏斗状的,而不是平坦的,因此可以引导采样走向生物构象盆地。封装的疏水核心优化了它们的vdW相互作用,限制了扭转角,并取消了内部 "洞",氢键和盐桥平衡了与水的相互作用的损失。Harold Scheraga采用物理化学的方法,率先研究破解氨基酸序列如何影响蛋白质的三维折叠途径、热力学和生物活性。无论是AlphaFold还是其他广泛的蛋白质结构预测算法都没有考虑折叠途径。物理化学是隐含的;在AlphaFold的情况下,是通过人工智能来计算的。
蛋白结构预测 蛋白质结构的预测可以是基于模板的,也可以是无模板的,后者不使用与实验结构的整体相似性。无模板建模利用了基于物理学的能量函数。两者都可以利用机器学习和人工智能来使用PDB中的数据。基于模板的建模选择一个结构模板并使用序列比对。无模板建模使用构象采样和排序。它可以从相关序列的多序列比对开始,以预测局部结构特征,这将指导三维建模,然后再进行细化和排序。
综合性的建模方法,从单个组件组装结构,可能遭受高假阳性率。计算综合方法可以结合实验方法、生物信息学、物理学和统计学的数据,快速准确地确定蛋白质复合体的结构。该算法可以整合实验数据以及已知结构的统计分析。
AlphaFold的显著成功不仅对所有的PDB结构进行训练,也对其预测的结构进行训练,它使用结构和相关数据来预测有接触的氨基酸对以及所有氨基酸对的距离。它还确保了氨基酸之间的距离满足三角形不等式,节省了中间步骤的时间。到目前为止,AlphaFold照亮了一半的黑暗人类蛋白质。然而,问题仍然存在,例如一个特定的蛋白质存在哪些结构状态,以及每个状态的数量是多少。解决这些问题对于将蛋白质结构与功能联系起来至关重要。这正是AlphaFold的不足之处。然而,它所产生的模型可以作为生成系综的输入,例如通过MD模拟,如果在足够长的时间范围内并行进行,它应该能够产生这种系综体。
结构-功能范式忽略了系综和动态能量景观
序列-结构-功能教条是一代人的试金石。它主导了分子生物学几十年。它是由物理化学家提出的,他们解释说,生物大分子在折叠的时候会发挥作用。因此,要了解分子的功能,就需要考虑它们的三维结构,这种变革性的范式成为现代生物学的一个原则。今天,人们普遍认识到,僵硬的分子不能发挥功能,从而使人们认识到,为了维持生命,分子的灵活性是一种必要。然而,这还没有完全转化为对能量景观这一强大概念的理解。也就是说,生物大分子是动态物体,总是在各种具有不同能量的结构之间相互转换,这就是变构机制的起源。这种作为构象间相互转换的柔性概念对于理解生物过程及其调控至关重要,如蛋白质的激活是系综体从非活性状态向活性状态的转变,变构药物如何发挥作用,细胞信号传递,以及通过构象选择而非诱导契合的结合机制。从经典的结构-功能范式到生物分子功能和变构机制的动态能量景观的概念演变,对AlphaFold的强大预测能力提出了挑战。为了理解生物调控,应通过蛋白质组合的种群和相对能量将结构与功能联系起来,这也是变构的基础。尽管AlphaFold的预测具有变革性的力量和巨大的广泛影响,但它无法直接解决这个问题。
围绕它们的原生状态,蛋白质景观由快速转换的构象组成。这些组合是 "模糊的"。与它们的环境和功能相关的事件,如pH值的变化,与离子、水和脂质的相互作用,以及小分子或大分子的结合,促进了构象的变化。这些变化被其局部受限的分子环境所阻挠。适应性强的结构变化会使系综体发生变化。转移后的、现在被填充的状态受到其当前邻近残基构象的阻挠。结合和催化包括在相互作用部位建立和破坏共价和非共价相互作用。这些相互作用通过折叠传播,影响了系综体的构象状态。系综中的转变改变了相对稳定性,即状态的种群,从而影响了变构转换。
生物大分子必须被统计描述,而不是静态地描述。静态描述是几十年来的规范。然而,静态描述不能捕捉功能。它不能描述蛋白质在某些激活事件中从非活性状态激活到活性状态。它也无法描述与激活剂的高亲和力结合是如何将蛋白分子转移到其活性状态的。当试图变构 "拯救突变 "是如何工作的,变构药物是如何阻断活性位点的,以及如何克服对抗它们的突变时,它将进一步失败。如果蛋白质以单一结构存在,或者只在活性和非活性两种状态之间翻转,那么在细胞中发生的所有这些过程都是不可能的。虽然有一个单一的构象是活性酶应该采取的生产性催化,但有多种方法可以使其失活,因此有许多非活性状态。单一结构的概念孕育了 "锁钥式 "结合机制的概念。这种观点被 "诱导配合 "机制所取代,后者认为只存在两种状态,即活性和非活性状态。在诱导契合的情况下,配体与单一的 "开放 "蛋白质结构结合,蛋白质与刚性结合伙伴之间的相互作用诱导了蛋白质的构象变化。相反,构象选择机制的理论是,能量表面承载了非常多的构象,而最适合的构象被选择出来,随后的小规模诱导拟合优化,主要是通过侧链。
AlphaFold利用人工智能从序列中对蛋白质结构进行无模板预测,为生物学家提供具有良好分辨率的结构。它所产生的预测,就像那些通过同源模型获得的预测一样,是刚性的。柔性隐含地体现在某些区域没有预测结构或预测结构的置信度很低,如内在无序蛋白质的情况。因此,曾经被置于生物学边缘的计算方法,现在正处于最前沿,推动着 "第二次分子生物学革命"。AlphaFold可以推动生命科学的基本问题的突破,包括精准医疗,有望改变研究和加速药物发现。它是由深度学习的创新所驱动的,这些创新似乎已经准备好改变医学模拟。
人工智能和机器语言的应用
模拟中的人工智能和机器语言 用于分子模拟的机器学习──工具、策略和原理──最近已被回顾。机器学习已经对复杂原子系统的近似方法的发展产生了重大影响。在发展和整合MD模拟与深度学习方面的创新可以重现、解释、预测和产生与生物大分子行为有关的数据。深度学习方法可以帮助MD模拟在效率和规模上更胜一筹,人工智能在深度学习技术和模拟之间架起桥梁。实现广泛使用的挑战包括人工智能和MD的顺利连接以及工作流程的自动化。这些可以在MD模拟中普及新的深度学习工具,以有效地利用这两种强大的方法。这一领域的出版物数量激增,强调了人们对人工智能和机器学习在模拟中潜力的认识。深度学习也已经在结构建模和设计、分析以及将这些与功能联系起来方面得到了利用。
人工智能和机器语言在预测病原体-人类宿主PPI中的应用 人工智能和深度学习也正在被开发并应用于大分子结构的实验测定和预测,以及PPI。
人工智能方法在人类-微生物组蛋白质-蛋白质相互作用中的应用。这些相互作用在人类健康和疾病中发挥着重要作用。关于微生物、细菌和病毒影响人类健康的数据正在迅速增加。它们可以通过与人类蛋白质的相互作用来调节人类的信号和免疫反应。为了破译这种调控,重要的是确定具体的相互作用、参与的人类宿主蛋白以及复合物的结构。对相互作用的识别及其结构细节的原子分辨率允许理解参与病原体生存的机制并协助针对这些相互作用的药物发现。这些相互作用帮助病原体躲避和绕过免疫防御,病原体劫持了宿主的信号传递。从机制上讲,病原体蛋白质可以有类似于宿主的表面,使它们能够模仿并与宿主蛋白质的相互作用竞争。它们与宿主蛋白结合,并重新调整其生理信号传导。包括结构细节在内的数据非常少,大规模的实验检测具有挑战性。因此,高效和强大的计算策略来预测相互作用是至关重要的。大规模的应用中,AlphaFold现在可以被用来实现这一目标。机器学习既允许大规模的高效和通用的应用,又能解决机器学习算法所能破译的这种关系的复杂动态。
机器学习在PPI预测方面的挑战与数据和方法都有关。由于微生物的数据有限,而不是人类的数据,微生物的样本量很小。在基于序列的算法中,维度问题会很明显,随着特征大小的增加,难度会呈指数级增长。主成分分析(PCA)、统一流形近似和投影(UMAP)或自动编码器可用于将样本嵌入到低维空间,预处理和后处理管线可用于其他数据。在基于结构的方法中,问题可能与表征的数量和多样性有关。与具有三维结构的宿主-微生物PPI有关的数据是稀少的,因此在训练和评估计算方法方面面临着问题。其他问题包括缺乏黄金标准测试数据集。评估指标也不明确,PPI网络是稀疏等等。DeepMind的AlphaFold2在基于序列的蛋白质结构预测方面的成功,以及RoseTTAFold的开源对应物,以及公开的所有人类蛋白质的AlphaFold2预测,都是有利于科学界的重大举措。 结论
人工智能和机器学习是附加的项目。它们被应用于不同的应用,包括生物网络。它们影响着疾病生物学、药物发现、微生物组研究和合成生物学。他们还发展了一个机器学习管线,用于蛋白质相互作用网络中的分子复合体检测,以及癌症生存中主要信号通路的相关性。
这里,研究人员通过一些例子简要介绍了AlphaFold的巨大影响,以及人工智能在结构生物学中的巨大影响。作者强调了AlphaFold能够和不能完成的任务以及原因。变构机制属于后一种类型。然而,通过对AlphaFold产生的模型进行MD模拟,这一目标也可以实现。即使模拟可以解决这个动力学问题,但在这样的规模下,成本还是过高。需要一种转变模式的机器学习方法来建立蛋白质动力学模型。
AlphaFold及其背后的深度学习创新为蛋白质科学开辟了下一个前沿领域,包括精准医疗。蛋白质结构与细胞生物学、化学、生物物理学和医学相关。迄今为止,PDB数据库中已有超过18万个蛋白质结构,向全世界所有研究人员开放。然而,病原体的结构并不在其中,许多其他的结构也不在其中,而这些结构对人类健康至关重要。现在资源已经在那里了,随着计算能力的不断提高,这些资源最终也会在那里。尽管如此,这些结构的可用性是不够的。对于这些生物物理学家来说,关键是要问什么重要的问题。研究重点应该是什么,这样就不会重复已经完成的工作,而是利用新的能力来提出真正重要的问题。 参考资料 Nussinov, R., Zhang, M., Liu, Y. and Jang, H., 2022. AlphaFold, Artificial Intelligence (AI), and Allostery. The Journal of Physical Chemistry B.