【Nature. Mach. Intell. 】基于Transformer的多肽-HLA I类结合预测和疫苗的新生抗原序列设计

近日，国际知名期刊《Nature Machine Intelligence》在线发表了上海交通大学生命科学技术学院魏冬青团队的研究论文《A transformer-based model to predict peptide–HLA class I binding and optimize mutated peptides for vaccine design》。生命科学技术学院2017级博士研究生褚晏伊和香港大学深圳医院的张艳博士为该论文的共同第一作者。生命科学技术学院魏冬青教授和熊毅副研究员为该论文的共同通讯作者。

人类白细胞抗原（HLA）和肽（pHLA）之间相互作用的计算预测可以加快表位筛选和疫苗。该研究开发了TransMut框架，包含了用于pHLA结合预测的TransPHLA和用于突变肽优化的AOMP程序，它可以推广到生物分子的任何结合和突变任务（图1）。

TransPHLA设计了Transformer衍生模型来预测pHLA的结合。在pHLA结合预测、新抗原鉴定和HPV疫苗鉴定方面，TransPHLA均优于现有的14种方法。基于TransPHLA开发的AOMP程序可用于疫苗设计，它可以自动优化突变肽，以搜索对目标HLA具有更高亲和力并与源肽具有高度同源性的突变肽。在3660个非结合pHLA中，有3630个源肽被成功突变。其中，94%通过IEDB的推荐方法得到验证，88%与源肽的同源性高于80%。

图1.TransMut框架在webserver上的输入和输出

1.数据集

该研究包含112种HLA，肽长度从8到14，共有366种HLA-肽长度组合。详情见图2和图3。

图2.不同数据集中每个HLA相关的可结合的pHLA样本数

图3.不同数据集中肽长度相关的可结合的pHLA样本数

2.TransPHLA模型

TransPHLA的核心思想是自注意力机制的应用。TransPHLA由以下四个模块组成（图4）：首先使用embedding block将positional embedding添加到amino acid embedding中，以生成sequence embedding，然后应用dropout技术来增强鲁棒性。通过embedding block，TransPHLA分别生成肽和HLA的embedding。接下来，这些embedding将分别作为Encoder block的输入。Encoder block包含masked multi-head self-attention mechanism和feature optimization block。Feature optimization block是先上升后下降的全连接层的组合，这个模块使得注意力机制得到的特征表示更好。然后，将输出的肽和HLA的特征表示连接，作为pHLA的embedding。在pHLA的embedding通过encoder block后，使用projection block预测pHLA的结合分数。

图4.TransPHLA模型图

3.TransPHLA模型解释了pHLA结合的模式

TransPHLA的注意力机制为提供了生物学可解释性。有证据表明，肽的C端、N端和锚定位点对于与HLA的结合至关重要，它们通常位于肽序列的第一个、最后一个和第二个位置。TransPHLA的注意力分数也证实了这一点，如图5a所示。

此外，我们分析了正负样本上的氨基酸类型分别对不同肽位置的结合和非结合的贡献（图5b）。可以发现，pHLA的结合和不结合受到肽的不同成分的影响。因此，我们分析了不同肽位置的20种氨基酸对所有366种HLA-肽长度组合的结合或非结合的影响。这些结果不仅有助于人们了解pHLA结合的机制，还在AOMP程序的疫苗设计上起到关键作用。

由于注意力分数代表了pHLA结合的模式，这意味着肽序列上的关键氨基酸位点对于结合或不结合目标HLA很重要。我们可视化了5个HLA的结合模式（图5c）。正如预期的那样，TransPHLA在不同的肽位置发现了与先前研究相似的氨基酸类型模式。对于HLA-A11:01，TransPHLA识别第9位具有K(Lys)的肽的锚定残基。对于HLA-B40:01，TransPHLA成功鉴定了重要的残基，即第2位的E(Glu)和第9位的L(Leu)。对于HLA-B57:03，疏水残基通常形成结合口袋，TransPHLA通过第9位的L、第9位的F(Phe)和第9位的W(Trp)确定了这种偏好。对于HLA-A68:01，4HWZ55证明肽的第9位的K和第9位的R(Arg)残基显著有助于结合。对于HLA-B*44:02，第2位的E的重要性已被1M6O56证明。所有这些结果都得到了先前研究的支持，并证明了我们方法的有效性。

图5.(a)与所有正确预测的样本、正确预测的正样本和正确预测的负样本相关联的注意力分数 (b)肽的氨基酸类型和肽位置对pHLA结合的贡献 (c)与5个充分表征的HLA等位基因相关的肽结合剂的累积注意力分数。注意，较亮的残基被认为在pHLA结合中更重要。

4.AOMP程序

基于TransPHLA获得的注意力机制，开发了AOMP程序（图6）用于肽疫苗设计。当用户提供一对源肽和目标HLA时，AOMP程序可以搜索对目标HLA具有更高亲和力且不超过4个突变位置的突变肽。该程序既保证了突变肽与目标HLA的亲和性，又保证了突变肽与源肽的同源性，从而触发交叉免疫。

一方面，对于366种HLA-肽长度组合中的每一种，该研究为每个肽位置建立了关于20种氨基酸的结合贡献矩阵。为了适应新的或未知的HLA-肽长度的组合，该研究还建立了一个通用的结合贡献矩阵。另一方面，在预测亲和力相对较弱的pHLA时，使用TransPHLA得到的注意力分数来计算肽上每个氨基酸位点的贡献矩阵。

根据上述两个贡献矩阵计算了两个贡献率矩阵，其中贡献矩阵中的元素值越大，对相应氨基酸位点的结合或非结合越关键。直观地说，如果氨基酸位点对预测为非结合的贡献更大，那将它们替换为对预测为结合贡献更大的其他氨基酸，则突变肽更有可能与目标HLA具有更高的亲和力。基于上述四个矩阵，设计了四种策略来生成突变肽（图6），主要思想是比较源肽上对弱亲和力有很大影响的氨基酸位点和目标HLA-肽长度上对高亲和力有显著影响的氨基酸位点。然后根据比较结果进行相应的氨基酸替换。过程如下：(1)预测源肽和目标HLA的结合分数；（2）基于self-attention机制找到一些最重要的氨基酸位点；(3)用一些可能对结合预测贡献更大的氨基酸替换这些弱亲和力pHLA的重要位点；(4)选择一些最佳突变候选者进行评估。

图6.AOMP程序的工作流程，以肽DLLPETPW和HLA-B*51:01为例。其中，最下面两张子图的数字和字母，如8I表示将上一级得到的肽的第8位氨基酸W替换为氨基酸I

5.分子动力学模拟

基于已报道的等位基因特异性HLA分子的X射线晶体结构，该研究使用分子动力学（MD）模拟方法进一步验证了TransPHLA和AOMP程序的有效性。根据结果，(a)提出的TransPHLA获得的注意力机制与pHLA复合物的结构一致，(b)TransPHLA的预测结果与MD模拟和IEDB推荐的NetMHCpan_BA方法的预测结果一致。该研究选择HLA-A02:01作为目标HLA分子，因为HLA-A02:01是高频等位基因，PDB数据库中公开了多个肽和HLA-A02:01的复杂结构，为MD提供了足够的数据支持。KRAS是肿瘤发生和发展的驱动突变，而且KRAS的突变位点相对保守，G12突变频率占该基因所有突变的83%。G12中，G12D的突变频率最高（41%），其次是G12V（28%），G12C为14%。因此，该研究选择了含有G12的长度为9的肽作为源肽。对于TransPHLA预测出的不与目标HLA结合的源肽，使用AOMP生成一系列突变肽。然后，选择只有两个位点发生变化并预测为结合的突变肽作为MD对象。基于HLA-A02:01(PDB:1HHK)的结构，构建了HLA-A*02:01与多肽的分子动力学模型。肽包括源肽和选定的突变肽。分子动力学模拟的结果表明，突变肽的结合力明显强于源肽，这与TransPHLA和NetMHCpan_BA的预测结果一致。

而且，许多研究已经证明HLA-A02:01的关键结合位点是N端（即位置1或P1）、第二位置（即P2）和C端（即P9)。HLA-A02:01与长度为9的肽复合物的X射线晶体结构也表明，P2和P9锚定位点的氨基酸可以与HLA的侧链形成氢键。图7证实了所提出的TransPHLA对HLA-A02:01和长度为9的肽的注意力机制的有效性。该图显示位置2的L氨基酸（2L），9L或9V是肽与HLA结合的关键氨基酸，与现有文献的结果一致。此外，分析源肽YKLVVVGAG和衍生自它的2个突变肽YLLVVVGAV和YLLVVVGAL。图8和图9分别显示了上述3种肽和HLA-A02:01的分子动力学模拟结果。结果证实源肽对HLA-A*02:01的亲和力更弱，图8a展示源肽与HLA没有氢键相互作用，图9a显示源肽远离HLA结合沟。而图8bc和图9bc显示突变肽可与HLA侧链形成多个氢键相互作用，促进了突变肽与HLA的结合。