蛋白质结构预测是阐明功能机理和揭示生命体生物学本质的基础,同时也是加速疾病研究和促进创新药物研发、新型疫苗设计以及精准诊断的核心技术。Google DeepMind 团队最近开发的第二代程序AlphaFold2,利用人工智能技术实现了基于氨基酸序列预测蛋白质三维结构的重大突破,预测精度达到了前所未有的高度。然而,相关数据分析发现,AlphaFold2的预测精度与目标蛋白在PDB (蛋白质结构数据库) 中是否存在同源全长模板高度相关。事实上,自然界中的大多数蛋白质都是由两个以上的结构域组成,由于结构生物学实验技术的瓶颈,目前PDB库中仅有35.3%的结构包含多个结构域,从而导致很多多结构域蛋白质难以获得同源模板。因此,许多结构预测方法,包括目前最先进的端到端深度学习方法,虽然可以正确地预测许多单域蛋白质的结构,但无法准确地构建结构域之间的相互作用排列方向。 美国密西根大学计算医学与生物信息系张阳教授团队提出了一种新的多结构域蛋白质结构和功能深度学习预测协议 (protocol):I-TASSER-MTD (MTD表示multi-domain)。该协议集成了蛋白质结构域分割、单结构域建模、多域蛋白质全链结构组装和多域蛋白质功能预测,实现了基于分割组装的多域蛋白质结构和功能的全自动化预测。该研究有助于揭示多域蛋白质从单域到全链结构的组装机制,为结构域和全链级别的多域蛋白质功能研究提供了一个重要研究平台。该成果于2022年8月5日提前在线发表在《自然-协议》(Nature Protocols) 上,且入选期刊亮点文章 ****(Featured Protocol)。张阳教授为通讯作者,周晓根博士为第一作者。
图****1. 《Nature Protocols》在线发表论文【方法概述】
I-TASSER-MTD集合张阳课题组近年来开发的蛋白质序列结构域划分、深度学习空间几何约束预测、单域结构建模、多域结构组装和基于结构的功能注释等方法之大成,建立了一个统一、高效的多域蛋白质结构和功能预测平台。如图1所示,从氨基酸序列出发,采用LOMETS 多元穿线方法从PDB库中识别模板,并利用基于深度学习接触图和模板的结构域分割工具FUpred和ThreaDom进行结构域划分,同时通过基于深度残差卷积神经网络的DeepPotential预测残基-残基空间几何约束网络。 如果目标序列被预测为多域蛋白质,并且LOMETS探测到的全链模板无法覆盖所有的结构域,则采用基于残基-残基空间约束的I-TASSER版本(即D-I-TASSER)对每个结构域进行单独建模,然后使用结构域组装方法DEMO,根据结构类似模板信息和深度学习预测的域间方位特征,将所有结构域组装成全链结构。如果目标序列被预测为单域蛋白或者最优模板能够覆盖所有的结构域,则采用D-I-TASSER直接预测得到全链结构。 最后,基于预测的结构、目标序列和蛋白质-蛋白质相互作用信息,利用COFACTOR预测结构域和全链的功能,包括酶功能编号 (EC Number)、基因本体论关系 (GO Term) 和配体结合位点。
图2. I-TASSER-MTD 算法流程图****
I-TASSER-MTD致力于从序列出发进行全自动的多域蛋白质结构和功能预测。它与其他现有服务器相比,有如下主要优势 (图3): 1)大多数服务器将所有的目标蛋白看作单域蛋白,或者采用外部在线程序粗略地确定结构域边界,而I-TASSER-MTD根据目标类型,结合穿线模板或深度学习预测的约束信息自动探测结构域,尤其是,I-TASSER-MTD可以根据序列信息有效地识别包含多个独立片段的不连续结构域; 2)对于多域蛋白质,几乎所有的服务器都是通过独立提交单个结构域序列来生成单结构域的模型,但很少有服务器能够自动组装完整的全链结构,I-TASSER-MTD服务器不仅可以构建单域的模型,而且可以将所有结构域模型组装成完整的全链模型; 3)I-TASSER-MTD可以让用户提供不同类型的实验数据来辅助结构建模,包括交联数据、冷冻电镜密度图、同源模板以及实验方法测定的残基-残基接触或距离约束信息,这些相关实验信息可以极大地提高多域蛋白结构预测精度; 4)目前大多数服务器主要预测单域的功能,而I-TASSER-MTD可以预测目标蛋白的域级和全链级功能。
图3. I-TASSER-MTD 与其他服务器对比******【实验结果】**
I-TASSER-MTD (即“Zhang-Server”) 参加了第14届国际蛋白质结构预测技术评估大赛CASP14。根据所有多域蛋白全链模型的平均全局距离测试得分 (GDT-score) 对所有参赛服务器进行排序,图4a列出了表现最好的5个服务器的GDT-score。 可以看出,I-TASSER-MTD构建的全链结构的平均GDT-score最高,且多域蛋白质中单域结构的得分也高于其他服务器。例如,I-TASSER-MTD的单域模型的平均GDT-score为61.4,比排名第二的服务器ROSETTA (51.4) 高出19.4%。另外,对于单域蛋白质,I-TASSER-MTD模型的平均GDT-score也高于其他参赛服务器。
图4. I-TASSER-MTD 与其他服务器对比
此外,I-TASSER-MTD还能够准确识别多域和单域蛋白质,且可以预测得到合理精度的结构域边界。由于无法获得其他服务器在CASP14中的结构域划分结果,I-TASSER-MTD与两种先进的域边界预测方法ConDO和DoBo进行了比较。如图4b所示,I-TASSER-MTD的域边界预测精度显著优于这两种比较算法,在归一化结构域重叠得分 (NDO) 以及蛋白质分类的准确率 (ACC) 和马修斯相关系数 (MCC) 方面均高于两种比较算法。例如,I-TASSER-MTD对所有多域蛋白质的NDO平均得分为0.86,分别比ConDO (0.52) 和DoBO (0.48) 高65.4%和79.2%。 I-TASSER-MTD还在CASP14测试集上与端到端深度学习方法AlphaFold2和RoseTTAFold进行了比较。由于I-TASSER-MTD采用D-I-TASSER自动服务器单域模型对多域蛋白质进行建模,导致组装的全链结构精度低于AlphaFold2人工构建的全链结构。与RoseTTAFold端到端版本相比,I-TASSER-MTD模型的精度略高于RoseTTAFold,但略低于其 pyRosetta 模型版本。然而,正如图4c-e所示,I-TASSER-MTD在一些长序列多域蛋白质上表现出了明显优势,精度明显高于这两种端到端的模型预测方法。 与纯粹的机器学习模型相比,I-TASSER-MTD的另外一个优势是在于多域蛋白折叠模型的物理学解释上。第一,深度学习端到端模型的具体内部过程目前对用户和开发人员来说几乎是一个黑盒,而I-TASSER-MTD的模拟过程是易懂且可解释的。比如,I-TASSER-MTD给出了用于每个结构域和全链建模的模板,可以帮助用户更好地理解最终预测结构是如何得到的,从而为进一步研究蛋白质功能提供见解。 第二,有些蛋白质在不同状态下会形成不同的构象,I-TASSER-MTD通常会生成目标蛋白的不同结构,这对于蛋白质折叠和功能研究是至关重要。例如,人类蛋白Pin1包含调节和催化两个结构域,它们在不同的环境下会呈现出“展开”和“关闭”两种状态。如图5所示,I-TASSER-MTD构建的前5个模型具有高度的多样性,包含了这两种状态的结构,而AlphaFold2构建的所有模型只有单一的“关闭”状态。
图5. I-TASSER-MTD 和Alphafold2构建的人类蛋白Pin1的结构**【结论与展望】**
I-TASSER-MTD 服务器第一次实现了多域蛋白质的结构域划分、单域结构建模、全链结构组装、域级和全链级功能预测的一站式全自动化服务。除了结构预测以外,还可以应用到以下几个方面:1)蛋白质进化关系的分类是结构和功能研究的关键,而几乎所有的数据库都是基于结构域的三维结构和序列信息进行划分的,对于没有测定结构的蛋白质,I-TASSER-MTD预测的域边界和结构可以用来辅助蛋白质分类;2)冷冻电镜技术已成为大尺寸蛋白质结构测定的一种不可或缺的方法,但对于低分辨率的冷冻电镜密度图来说,建模精度高度依赖于同源模板信息,而很多多域蛋白无法获得同源全链模板,I-TASSER-MTD在不需要全链模板的情况下,可以根据冷冻电镜密度图,使用域组装的方式构建高精度的全链结构。3)COFACTOR已被证明可以准确地对微生物和高等生物的蛋白质组级进行功能注释,I-TASSER-MTD利用集成的COFACTOR算法,基于预测结构推断蛋白质域和全链级别的功能,为蛋白质进化和功能关系研究提供见解。 尽管I-TASSER-MTD 在多域蛋白质结构和功能预测方面取得了重要进展,但仍然存在一些需要改进的部分。首先,I-TASSER-MTD目前采用的基于深度学习接触图的域边界预测方法需要构建多序列比对,对于超大规模的蛋白质来说,需要大量的计算内存,导致现有方法无法快速预测这些蛋白质的结构域定义,因此,如何开发轻量级的深度学习域边界预测方法,并采用模板信息协同指导获得高精度的结构域定义将有助于进一步提高结构预测精度。其次,I-TASSER-MTD全链模型的质量依赖于各结构域模型的精度,且结构域组装过程仅执行刚体组装,在存在局部错误折叠的情况下,无法正确的确定域之间的相互作用方向,因此,如何结合深度学习预测的特定约束,在刚体组装的同时,采用柔性组装对结构域进行优化调整,可能可以进一步提高性能。
原文链接: