AI从底物和酶的结构中预测米氏常数,量化酶活性

2021 年 11 月 13 日 机器之心
编辑 | 萝卜皮
啤酒酿造、化妆品制造、医疗保健等领域离不开酶的参与,酶可以与特定底物结合,起到高效的催化作用。我们身体细胞本身也离不开酶的参与,酶也真真切切地影响着人们的日常生活。
米氏常数 Km 描述了酶对特定底物的亲和力,是酶动力学和细胞生理学研究的核心参数。由于 Km 的测量通常很困难且耗时,因此即使在模型生物中也仅存在少数酶-底物组合的实验估计值。
在这里,瑞典查尔姆斯理工大学(Chalmers University of Technology)的一组研究人员,选择了一种独特的方法, 使用 AI 从底物和酶的结构中预测米氏常数。 构建并训练了一个独立于生物体的模型,该模型使用机器学习和深度学习方法成功预测了天然酶-底物组合的 Km 值。 预测基于底物的特定任务分子指纹,使用图神经网络生成,以及使用酶氨基酸序列的深度数值表示。
研究人员为 47 种模式生物提供基因组规模的 Km 预测,可用于将代谢物浓度与细胞生理学大致联系起来,并有助于细胞代谢动力学模型的参数化。
该研究以「Deep learning allows genome-scale prediction of Michaelis constants from structural features」为题,于 2021 年 10 月 19 日发布在《PLOS BIOLOGY》。
米氏常数Km
米氏常数 Km 定义为酶以其最大催化速率的一半运行时的底物浓度;因此,它描述了酶对特定底物的亲和力。Km 值的知识对于定量理解酶和代谢物之间的酶促和调节相互作用至关重要:它将代谢物的细胞内浓度与其消耗率联系起来,将代谢组与细胞生理学联系起来。

由于 Km 的实验测量既困难又耗时,因此即使在模式生物中也不存在许多酶的实验估计值。例如,在大肠埃希氏菌这种生物化学特征最好的生物体中,只有不到 30% 的天然底物存在体外 Km 测量值,并且在体外仅对大约 2,000 个酶促反应中的约 10% 的转化率进行了测量。
简介
Km 值以及酶周转数 kcat 是解释代谢物浓度的细胞代谢模型所必需的。大规模动力学建模中的当前标准方法是在优化过程中估计动力学参数。这些优化通常会尝试估计比作为输入的测量值更多的未知参数,因此,由此产生的 Km 和 kcat 值具有广泛的置信范围,并且与实验观察值几乎没有联系。因此,人工智能对这些值的预测,即使只有一个数量级,也将代表朝着更现实的细胞代谢模型迈出的重要一步,并可以大大增加此类模型提供的生物学理解。

模型概述。

与 Km 预测相关的一个问题是药物-靶标相互作用的预测,这是药物开发中的一项重要任务。已经开发了多种预测药物靶标结合亲和力(DTBA)的方法。这些方法中的大多数是基于相似性、基于结构或基于特征的。基于相似性的方法依赖于类似药物倾向于与类似目标相互作用的假设;这些方法使用已知的药物-靶标相互作用来学习基于药物-药物和靶标-靶标相似性度量的预测函数。用于 DTBA 预测的基于结构的模型利用有关目标蛋白质 3D 结构的信息。这两种策略都不能很容易地推广到基因组规模的、独立于生物体的预测,因为许多酶和底物与充分表征的分子只有遥远的相似性,并且 3D 结构仅适用于少数酶。

优化模型的性能。

与前两种方法相比,基于特征的药物-靶标相互作用预测模型使用药物和靶标的数值表示,作为全连接神经网络(FCNN)的输入。药物特征向量通常是 SMILES 表示、专家制作的指纹或使用图神经网络 (GNN)创建的指纹,而目标的特征向量通常是基于序列的表示。由于大多数酶和底物可以轻松生成此信息,因此研究人员在这里使用类似的方法来开发 Km 预测模型。
Km 预测和 DTBA 预测之间的一个重要区别是,前者旨在预测已知的天然酶-代谢物组合的亲和力。这些亲和力是在酶功能的自然选择下进化的;这是一个受到代谢物结构强烈限制的进化过程。相比之下,野生型蛋白质在药物存在的情况下不会进化;因此,分子结构可能包含的关于目标结合亲和力的信息非常有限,同时没有关于目标蛋白质的信息。
尽管代谢物分子结构对其消耗酶的进化结合亲和力起着核心作用,但酶结构和序列中也必须包含有关亲和力的重要信息。为了预测 Km,需要使用有关酶底物结合位点的详细结构和物理化学信息。然而,这些位点仅针对少数酶进行了表征。另一种方法是采用酶的整个氨基酸序列的多维数字表示,如 UniRep。UniRep 向量基于深度表示学习模型,并且已被证明可以保留结构、进化和生物物理信息。

培训集尺寸对模型性能的影响。

在这里,研究人员将酶的 UniRep 向量与其底物的不同分子指纹相结合,使用机器和深度学习模型构建了一个通用的、与生物体和反应无关的模型,用于预测 Km 值。在最终模型中,研究人员使用酶的 1,900 维 UniRep 向量以及底物的任务特定分子指纹作为梯度增强模型的输入。该模型在测试集的预测值和测量值之间达到了 R2 = 0.53 的决定系数,即该模型解释了不同的、以前未见过的天然酶 - 底物组合的 Km 值的 53% 变异性。在结果数据中,研究人员为 47 个基因组规模的代谢模型提供了完整的 Km 预测,包括智人、小家鼠、酿酒酵母和大肠杆菌的模型。
讨论
研究人员发现酶-底物对的米氏常数Km,可通过人工智能进行预测,确定系数R2=0.53:通过酶氨基酸序列和底物分子结构的深层数值表示,可预测酶和生物体内KM值的一半以上方差。该性能在很大程度上与生物体无关,并且不要求用于培训的数据集涵盖酶或底物;使用来自Sabio RK(R2=0.49)的第二个独立且不重叠的测试集确认了良好的性能。
为了获得这种预测性能,研究人员使用了针对 Km 预测优化的特定任务指纹 (GNN),因为这些指纹似乎比基于专家制作的转换(ECFP、RDKit 指纹、 MACCS 密钥)。观察到的 GNN 和预定义指纹之间的差异与之前关于小分子化学特性预测的研究结果一致。
文章作者 Lercher 教授对结果的质量是这样说的:「使用独立的测试数据,我们能够证明该过程可以预测米氏常数,其准确度类似于来自不同实验室的实验值之间的差异。现在是,计算机可以在几秒钟内估算出一个新的米氏常数,而无需进行实验。」
论文链接:https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.3001402
相关报道:https://phys.org/news/2021-10-ai-quantify-enzyme.html

人工智能 × [ 生物 神经科学 数学 物理 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

欢迎注标星,并点击右下角点赞在看

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

登录查看更多
0

相关内容

具有动能的生命体。
NeurIPS 2021 | 通过动态图评分匹配预测分子构象
专知会员服务
21+阅读 · 2021年12月4日
专知会员服务
18+阅读 · 2021年8月15日
专知会员服务
21+阅读 · 2021年6月26日
【ICML2021】学习分子构象生成的梯度场
专知会员服务
14+阅读 · 2021年5月30日
[WWW2021]图结构估计神经网络
专知会员服务
42+阅读 · 2021年3月29日
【元图(Meta-Graph):元学习小样本连接预测】
专知会员服务
64+阅读 · 2020年5月31日
靶向蛋白质降解的蛋白-蛋白相互作用预测
GenomicAI
4+阅读 · 2022年3月5日
深度学习预测蛋白质-蛋白质相互作用
机器之心
5+阅读 · 2022年1月15日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月18日
Arxiv
0+阅读 · 2022年4月14日
Arxiv
12+阅读 · 2021年6月29日
Arxiv
12+阅读 · 2020年12月10日
Arxiv
26+阅读 · 2018年9月21日
Arxiv
25+阅读 · 2018年1月24日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
Arxiv
0+阅读 · 2022年4月18日
Arxiv
0+阅读 · 2022年4月14日
Arxiv
12+阅读 · 2021年6月29日
Arxiv
12+阅读 · 2020年12月10日
Arxiv
26+阅读 · 2018年9月21日
Arxiv
25+阅读 · 2018年1月24日
Top
微信扫码咨询专知VIP会员