结构比对是生物信息学研究的基本组成部分。众所周知,序列比对已经在生物信息学领域得到了广泛深入的研究和应用,然而,序列相似的生物大分子在空间结构和功能上并不必然有相似性,反之,序列不相似的生物大分子,却可能折叠形成相同的空间形状,并具有相同的功能。因此,结构比对是生物信息学中现有序列比对算法重要的补充手段,已经成为目前结构生物学和生物信息学面临的重要挑战之一。结构比对的基本思想是检测诸如蛋白质、DNA、RNA及其形成复合物等生物大分子三维空间结构之间的相似性,进而发现其内在的功能和进化信息。开发精确、快速的结构比对算法和工具,不仅可以提供直观的分子形状比较,而且在大分子结构分类、功能注释、药物发现和蛋白设计等生物医学问题中都有着重要的理论意义和实践应用价值。 针对结构比对问题,密西根大学张阳课题组多年来研究开发了多款高效准确的结构比对算法和工具,包括蛋白质结构比对算法TM-alignRNA结构比对算法RNA-align以及蛋白质复合物结构比对算法MM-align。然而,现有算法都是针对特定分子类型(蛋白质、DNA、RNA)在特定比对任务上(单体结构的两两比对、多个单体结构的多重比对、复合物结构比对)上进行优化,尚无****一种算法可以普遍适用于多种分子类型和多种结构比对问题。这使得不同分子类型的结构比对算法各自为政,沟通困难,不仅仅要求用户需要同时安装和使用多款不同的软件,尤为严重的是,难以实现某些重要的、含有不同类型分子的复合物(比如蛋白质**-DNA****)之间的结构比对**。 2022年8月29日,密西根大学张阳课题组在《自然-方法》上发表了题为“US-align: universal structure alignments of proteins, nucleic acids, and macromolecular complexes”的研究工作(图1),张阳教授为本文通讯作者,博士后张成辛博士为第一作者。在该项工作中,他们发布了第一款通用的结构比对软件US-align,基于统一的打分函数(TM-score)和比对算法,实现了蛋白质、RNA、DNA单体与复合物的两两比对和多重比对等重要功能。US-align采用高度优化的C++语言编写,这也使其比其它特定结构比对程序的速度提高了数倍,并通过算法优化获得了更准确的结构比对结果。其中,蛋白与核酸的单链比对基本上分别沿用TM-align与RNA-align算法,多重比对借鉴mTM-align算法并新增RNA多重比对功能,而复合物结构比对算法则是完全从头开发。实际结果表明,在准确性和速度上都超越旧版的MM-align。

**图****1. **Nature Methods》在线发表论文

**1. **研究思路

US-align整合了TM-align和RNA-align这两款分别用于蛋白质与核酸单体结构的两两比对算法,同时把单体结构比对算法进一步推广至复合物结构比对(图2a-d)。给定TM-score的目标函数,设计单体和复合物递进启发式比对算法进行优化(图2e)。具体而言,US-align先通过两结构之间的相对滑动和二级结构匹配等方式生成多个初始比对,再针对每一套初始比对,都进行反复的结构重叠(superimposition)与全局比对(global alignment)的层级迭代,最终求解出TM-score最优的结构比对结果。

**图2 a-e, US-align实现的主要功能,包括****a,****单链结构的两两比对;****b,****复合物结构的两两比对;****c,****多条单链结构的多重比对;****d,**基于模板的结构比对。e, US-align两两结构比对的递推流程图。(图源:Zhang C, et al., Nat Methods, 2022

**2. **实验结果及分析

虽然US-align与第一代MM-align算法采用同样的TM-score作为目标函数,但US-align在比对搜索上使用更为优化的算法,使其在复合物比对任务上的达到更好的TM-score与比对覆盖度,并且速度是第一代算法(MM-align与MICAN)的数倍,在准确度上也胜出(图3)。

图****3 US-align与已有的复合物结构比对算法(MM-alignMICAN**)在a, TM-scoreb, RMSDc, 覆盖率和d, 运行时间四方面的比较。e, US-alignf, MM-aligng, MICAN对两个八聚体复合物比对的结果,两个复合物PDB编号4JHM4IAJ,分别由半透明卡通和实线彩带表示,不同颜色表示不同链。**

US-align也实现了将多个单体结构进行多重比对(multiple structure alignment, MSTA)的功能,US-align的MSTA借鉴mTM-align算法并且新增RNA多重结构比对功能,不但在TM-score和RMSD上超越已有算法(Matt和MUSTANG),而且在比对速度上,比另外两款软件分别快15和1650倍(图4)。

图****4 US-align**、MattMUSTANGRNA多重结构比对上的比较。(图源:Zhang C, et al., Nat Methods, 2022)**

由于US-align既适用于核酸又适用于蛋白质,并且对所用的分子类型都使用统一的打分函数,因而特别适用于基于模板的RNA-蛋白结构比对。具体而言,对于一对输入的蛋白质和RNA单链结构,US-align可以搜索已有的RNA-蛋白复合物结构数据库,并且将输入的单链结构重合到复合物模板结构上,从而构造出输入蛋白与输入RNA之间的完整复合物结构。相比于已有的基于模板的比对程序(PRIME)和不依赖模板的程序(3dRPC),US-align的比对成功率提高了3到7个百分点,并且速度是已有程序的6到28倍(图5)。

图****5 US-align**、3dRPCPRIMERNA-蛋白质分子对接上的比较。其中3dRPC不需要结构模板;US-alignPRIME使用的模板都和输入结构的蛋白质序列相似性****<30%RNA序列相似性<80%****。(图源:Zhang C, et al., Nat Methods, 2022)**

**3. **用户使用

US-align是开源程序(https://github.com/pylelab/USalign),提供网页服务器以及单机版命令行程序下载,在Windows、Linux和Mac OS操作系统下都能流畅运行(图6)。新一版的US-align2在持续开发中,在保留所有旧版功能的基础上,将会添加非序列比对(Non-Sequential Alignment)等功能。

图6 US-align网页版(https://zhanggroup.org/US-align/)的多重结构比对结果

**4. **结论与展望

综上所述,US-align程序是一款快速、准确的结构比对程序,适用于多种结构比对任务,并且所有的结构比对功能都整合在同一套打分函数(TM-score)和启发式搜索算法下,在单体与复合物的两两比对、多重比对和分子对接等任务中都超越了其它的先进算法。下一代结构比对程序US-align2的开发正在进行中,US-align2将在兼容所有US-align功能的基础上,新增非序列顺序比对(non-sequential alignment)功能。US-align系列程序目前只能进行刚体结构比对,未来的研发工作将会关注柔性结构比对(flexible structure alignment)功能的支持。

原文链接

https://doi.org/10.1038/s41592-022-01585-1 网页服务器、单机版、C++代码https://zhanggroup.org/US-align/

成为VIP会员查看完整内容
6

相关内容

医学领域的人工智能是使用机器学习模型搜索医疗数据,发现洞察,从而帮助改善健康状况和患者体验。 得益于近年来计算机科学和信息技术的发展,人工智能 (AI) 正迅速成为现代医学中不可或缺的一部分。 由人工智能支持的人工智能算法和其他应用程序正在为临床和研究领域的医学专业人员提供支持。
基于组合贝叶斯优化的自动化抗体设计
专知会员服务
14+阅读 · 2022年9月9日
AI算法 | 基于矩阵补全多视图学习的药物重新定位
专知会员服务
12+阅读 · 2022年7月19日
【Nature-MI】可解释人工智能的药物发现
专知会员服务
45+阅读 · 2020年11月1日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年10月17日
Arxiv
0+阅读 · 2022年10月17日
Arxiv
0+阅读 · 2022年10月14日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员