作者 | 杨崇周
这次为大家报道的是nature methods 上一篇题为” Deep embedding and alignment of protein sequences” 的文章,来自法国巴黎Google Research的Brain Team团队。
蛋白质序列比对是研究蛋白质结构和功能的大多数生物信息学管道的关键组成部分。然而,对齐高度不同的序列仍然是一项艰巨的任务,目前的算法往往无法准确执行,导致许多蛋白质或开放阅读框架注释不佳。在这里,我们利用语言建模和可差异编程的深度学习的最新进展,提出了DEDAL(深度嵌入和可差异对齐),这是一种用于对齐蛋白质序列和检测同源物的灵活模型。DEDAL是一种基于机器学习的模型,它通过观察原始蛋白质序列和正确比对的大数据集来学习比对序列。一旦经过训练,我们表明DEDAL比现有的远程同源物方法提高了两倍或三倍的比对正确性,并更好地将远程同源物与进化上不相关的序列区分开来,为依靠结构和功能基因组学中的序列比对来改进许多下游任务铺平了道路。
介绍
序列比对是生物信息学管道的关键组成部分,用于研究蛋白质的结构和功能,并注释新测序基因组和元基因组中的开放阅读框架。事实上,对齐两个蛋白质序列可以识别具有已知结构或功能的同源序列,以及可能是进化、结构或功能关系的结果的相似区域。联合对齐多个序列进一步提供了关于沿着序列的进化约束和共同进化模式的信息。然而,尽管这些算法在下游应用中非常受欢迎和重要,但它们往往会产生错误的比对或无法检测同源性,尤其是对于相似度低的序列。这使得基因组学和宏基因组学项目中相当一部分预测的开放阅读框架没有注释,而对齐错误又会导致错误的结构或功能注释。改进成对序列比对算法,特别是对发散序列的比对算法,可以直接使许多下游任务受益
这项工作中,作者提出了DEDAL(深度嵌入和可微对齐),DEDAL建立在标准SW算法的基础上,以有效地找到两个序列之间的最佳对齐,但提供了SW算法使用的评分函数的灵活参数化,该函数适应每个序列对和每个序列中的每个位置。参数化是在训练阶段从一组已知比对的序列对和一大组原始蛋白质序列中自动学习的。它既依赖于深度学习语言模型的最新进展,该模型在连续空间中嵌入离散序列,并在大量原始序列的语料库上自动训练,也依赖于SW算法的参数化(间隙和替换参数)作为连续嵌入的函数。为了训练DEDAL,作者提出了SW算法的平滑变体,以使对齐解成为评分参数的连续可微函数。给定一组已知正确对齐的序列对,然后作者通过基于端到端梯度的优化来自动调整模型的各种参数,以最小化对齐误差。一旦经过训练,DEDAL就会生成专门为每对新序列计算的缺口和替代评分矩阵。此外,差距和替代分数是上下文相关的:对于每对位置,它们取决于要对齐的完整序列。然后使用这些参数用标准SW算法计算最佳对准。我们表明,DEDAL可以通过加速器在现代硬件上进行有效训练。一旦经过训练,作者证明与标准SW相比,DEDAL提高了远程同源物预测比对质量的两倍或三倍,并产生了更准确地检测远程同源性的比对分数。 模型框架
作者介绍了DEDAL,一种用于蛋白质序列精确成对局部比对的可训练算法(下图)。DEDAL通过计算特定于所对齐序列的替换分数和差距惩罚来对齐序列(下图,顶部)。为此,DEDAL取决于在训练阶段推断之前自动调整的参数(下图,底部)。
DEDAL框架训练和测试流程
为了对齐两个序列x和y并对结果对齐进行评分,DEDAL简单地使用标准SW算法进行成对局部对齐,但使用专门从x和y计算的间隙开放、间隙扩展和替换评分矩阵,首先使用基于深度学习的变压器编码器网络TÜ来独立地获得这些序列中的每一个的连续表示。在这个表示中,每个序列的每个残差被映射到固定维度的向量空间中的向量(使用d = 768)。重要的是,这些嵌入是上下文相关的:也就是说,每个残基的嵌入不仅编码关于该位置存在的氨基酸的信息,还编码关于序列中所有其他残基的信息,以及它们的相对排列。这使得DEDAL在表示序列的方式上具有高度灵活性,选择数据驱动的方法来结合上下文信息而不是硬编码规则。接下来,DEDAL计算待比对序列中每对残基的替换分数以及间隙开放和间隙扩展惩罚,通过参数化函数Pβ根据其各自的向量表示计算,该函数取决于参数β。最后,使用标准SW算法来计算最佳对齐,并使用上一步骤中计算的替换分数、间隙打开和间隙扩展惩罚对其进行评分。换句话说,DEDAL依赖于SW算法来对齐序列并对对齐进行评分,但提供了一个非常灵活的框架来参数化SW算法;特别地,替换分数、间隙打开和间隙扩展惩罚特定于两个输入序列中的每对位置,并且通过变换器编码器和参数化器的上下文嵌入依赖于完整序列。
结果
DEDAL精确比对同源序列 作者首先评估DEDAL准确比对同源序列的能力。由于DEDAL是基于一组已知的正确比对进行训练的,因此我们必须评估其在训练期间未看到的序列上的性能。因此,作者将Pfam序列分成两个不重叠的集合。第一个用于训练模型并选择超参数,第二个用于评估其性能。作者考虑两种方法进行分割:(1)在Pfam中随机均匀地分割序列,以便测试集中的序列来自训练时看到的家族(我们称此设置为分布内设置),以及(2)在训练集和测试集之间分割家族,因此,测试集中的序列来自训练期间不可见的氏族(称此设置为分布外设置)。显然,分布外的设置更具挑战性,因为它需要模型在各个部族之间进行推广。它模拟了作者希望从未知域排列序列的情况。另一方面,分布内设置模拟了我们希望从已知Pfam域对齐序列的常见情况。在这两种情况下,作者都保留了用于掩码语言模型任务的UniRef50序列集,因为我们希望模拟用户希望从UniRef50描述的、在训练时已知的“蛋白质世界”中对齐序列的情况,无论它是否与Pfam中注释的序列相似;此外,在补充信息中,作者们提供了更多的结果,其中仅在UniRef50的子集上训练语言模型任务,而不匹配分布外测试集中的任何Pfam家族,以评估DEDAL在序列上的性能,但也与在语言模型任务的训练时看到的“蛋白质宇宙”中的任何序列显著不同。作者通过测试集上预测的F1分数来衡量预测比对的质量,并通过正确比对中序列的百分比同一性(PID)对性能进行分层,因为众所周知,当PID降低时,比对序列的难度会增加。作为基线,作者将DEDAL与SW算法进行了比较。
下图总结了DEDAL和基线在分布内和分布外设置下的对齐性能。我们发现,DEDAL在分布和非分布方面都大大优于基线。这一差异在分布上尤其明显(与F1相比,平均相对改善了18% = 0.744至F1 = 0.877),这证实了在Pfam家族上训练DEDAL以随后在这些家族中排列新的蛋白质序列的益处。随着PID的减小,DEDAL和基线之间的差距变大,在最困难的设置(PID≤0.1),表明DEDAL可以提供良好的质量比对(F1 = 0.587),甚至在非常遥远的同源物之间,而基线不能(F1 = 0.152).这表明,DEDAL学习了一个蛋白质序列相似性模型,该模型超出了它在训练过程中看到的生物子空间,并且DEDAL在远程同源性的困难情况下尤其有用,在这种情况下,标准方法表现不佳
然后,作者比较了DEDAL和基线对Pfam域的对齐能力,而不是用来训练DEDAL的扩展域。虽然两种情况下的域序列相同,但由于Pfam家族中的两个域序列通常可以从开始到结束对齐,因此对齐方式非常不同,从而使正确的对齐方式更接近全局对齐方式而非局部对齐方式。此设置的结果显示在下图中
DEDAL模型和基线(SW算法)对其性能比较
DEDAL精确检测远程同系物 接下来,作者试图确定DEDAL准确比对同源序列的能力是否也表明其计算的比对分数对检测同源性有效。为此,他们遵循与探测比对性能时相同的实验设置,即一方面考虑Pfam扩展域对或Pfam域对,另一方面考虑来自训练时间(在分布设置中)看到的家族的候选同源序列对,或来自训练时间中未看到的家族(在分布设定之外)的候选同源顺序对。对于这些设置中的每一个,当基于SW得分预测一对序列是否属于同一Pfam家族时,他们测量接收器操作特性曲线(AUROC)下的面积,如计算比对E值以评估同源性时通常所做的那样,校正序列长度的比对得分(方法)。为了根据检测其相关性的“难度”对真实同源物进行排序,来自同一Pfam家族的同源物再次通过PID进行分层,而属于同一Ppham家族但不同Pfam家庭的(远程)同源物,其基本真实PID未知,都被分配到一个特殊的“Clans”bin。不相关对(负类),其地面真实PID也未知,包含在所有箱中。
下图总结了该实验的结果。作者还在补充信息中显示了一种使用精确召回曲线下面积评估性能的替代方法。作者发现,所有方法在检测具有中到大PID的序列对的同源性方面都非常成功(≥0.2)。DEDAL在检测所有四种环境中高度不同序列的同源性方面明显更好。对于最小的PID箱(<0.1),DEDAL分别将Pfam域和扩展域的分布性能提高了25%(AUROC从0.797到0.997)和42%(AUROC从0.696到0.992)。再一次,DEDAL的性能在分布外分割中下降,同时保持显著优于基线,将AUROC分别提高23%(AUROC从0.770提高到0.948)和30%(AUROC从0.698提高到0.910)。当检测属于同一Pfam族但不同Pfam家族的序列的同源性时(“计划”bin),基线的表现仅略优于随机猜测。在分布分割中,Pfam域和扩展域的AUROC分别达到0.611和0.550。相比之下,DEDAL在“Clans”bin的分布内分裂中的表现与来自相同Pfam家族的同源物在最小PID bin(<0.1)中的表现相当,域和扩展域的AUROC分别为0.992和0.987。在分配外拆分中,与PID相比,DEDAL在“族”箱中表现出明显的性能下降 < 0.1bin,表明特定于宗族的图案有一定程度的记忆。尽管如此,其表现仍远高于基线,Pfam域和扩展域的AUROC分别为0.811和0.725。
来自Pfam-A种子的两个蛋白质结构域序列的成对比对的实例 讨论
使用具有变换器和新的可微比对模块的深度语言模型的最新进展并结合SW算法,,作者发现DEDAL学习了蛋白质序列的连续表示,与使用具有固定替换矩阵和间隙惩罚的SW算法相比,该连续表示可导致更精确的成对序列比对和同源性检测。在希望将远程同源物与有限序列同一性对齐的困难情况下,这一改进尤其引人注目,作者表明,DEDAL在某些序列空间上学习的模型很好地推广到新的家族,这表明DEDAL学习通用的生物特性,不易被标准替代矩阵和仿射间隙惩罚捕获
由于DEDAL包含了多种设计选择,例如模型的架构或训练它的策略,人们可能会想知道哪些方面对解释其成功最为关键。为了解决这个问题,作者进行了消融研究,系统地评估了各种设计选择对DEDAL性能的影响(补充信息)。简而言之,作者发现,用一个更简单的模型代替丰富的位置特定间隙开放和扩展参数的参数化,其中间隙开放和延伸参数是位置无关的,这不会对DEDAL的性能产生太大影响,在分布内分割中获得稍好的对齐F1分数,但在分布外序列对中获得稍差的结果。另一个简化是用位置特定的线性间隙惩罚代替我们的位置特定的仿射间隙惩罚,例如在DeepBLAST25中使用的,然而,作者发现这会导致远程同源物的性能下降,这在分布外分裂中最为明显
在技术方面,作者探索了两种创建可微SW对齐模块的方法,需要在“学习对齐”任务中使用平滑技术或扰动技术来训练DEDAL的参数;作者发现两者在性能方面没有显著差异,并在最终的DEDAL模型中实现了基于扰动的模型。关于用于训练DEDAL的一组比对,作者发现,当他们希望DEDAL能够预测准确的局部比对时,使用Pfam扩展域而不是Pfam域是有益的。当在掩蔽语言建模任务上预训练DEDAL时,从“蛋白质世界”中排除与分布外家族相关的序列导致远程同源物的性能略有下降,尽管相对于基线的性能差距而言微不足道。关于端到端联合训练变换器和参数化器的策略,作者发现这确实明显优于更经典的两步策略,该策略首先在屏蔽语言建模任务上训练变换器编码器,然后通过保持变换器固定来在“学习对齐”任务上训练参数化器。这表明,通用语言模型是不够的,应该至少进行微调以获得最佳的对齐性能。最后,作者通过简单地训练一个模型来评估上下文相关嵌入的益处,其中替代成本被限制为仅取决于要对齐的氨基酸;作者观察到该模型的性能显著下降,达到了与文献中性能最佳的替代矩阵相同的性能。总之,作者的消融研究表明,DEDAL对模型的几个技术方面的变化具有鲁棒性,但联合训练深层语言模型和软件的灵活参数化器的主要思想是其性能的关键。 参考资料 Llinares-López, F., Berthet, Q., Blondel, M. et al. Deep embedding and alignment of protein sequences. Nat Methods (2022). https://doi.org/10.1038/s41592-022-01700-2
代码 https://github.com/google-research/google-research/tree/master/dedal