上科大研究登Nature子刊，深度学习更快、更深入地进行磷酸化蛋白质组分析

2021 年 11 月 27 日 机器之心

编辑/凯霞

蛋白质磷酸化 是一种广泛的翻译后修饰（PTM），是生物体内一种普通的调节方式，在细胞信号转导的过程中起重要作用。基于数据依赖采集（DDA）和数据非依赖采集（DIA）是基于高分辨质谱的非靶向代谢组学中的常见数据采集模式。

然而，当前的 DIA 磷酸蛋白质组学工作流程面临着一个重大限制，即需要在数据处理之前构建高质量的光谱库。

近日，上海科技大学的科研团队开发了一个名为 DeepPhospho 的深度学习框架，以实现对磷酸肽的 LC-MS/MS 数据的高度准确预测。通过设计和评估 DeepPhospho 生成的一系列 in silico 文库，证明 DeepPhospho 预测文库优于基准实验 DDA 文库，并实现了更快、更深入的 DIA 磷酸化蛋白质组分析。

该研究以「DeepPhospho accelerates DIA phosphoproteome profiling through in silico library generation」为题，于 11 月 18 日发表在《Nature Communications》杂志上。

DeepPhospho 原理

DeepPhospho 的关键组成部分是学习逐渐丰富的肽表示，允许更好地捕获肽的局部和全局结构，以进行细粒度预测。与之前的方法相比，研究人员采用了一种混合网络设计，该设计集成了两种类型的网络架构来编码肽结构的不同方面。

研究人员开发了一个模块化深度网络，由三个主要子网络组成：用于编码肽的循环网络；用于改进肽表示的 Transformer 网络；用于预测碎片离子强度或索引保留时间 (iRT) 的回归网络。

图示：DeepPhospho 深度学习架构。（来源：论文）

据研究人员表示， DeepPhospho 是第一个利用 Transformer 预测肽段断裂模式的工作。为了证明模型设计的优势，进行了消融研究，将模型与 bi-LSTM 或单独的 Transformer 进行比较，并使用两个磷酸化蛋白质组学数据集将 CNN 与 Transformer 相结合。

研究得出：混合模型始终优于那些替代基线，表明 DeepPhospho 能够学习到更好的磷酸肽特征表示，并且 bi-LSTM 和 Transformer 在学习肽表示方面是互补的。

准确预测磷酸肽的碎片离子强度和保留时间

在模型架构测试之后，DeepPhospho 使用四个大规模磷酸化蛋白质组学数据集进行了预训练。然后，研究人员使用 DeepPhospho 对从两个实验室的 Q Exactive HF-X 和 Orbitrap Fusion Lumos 质谱仪获得的其他三个数据集中的磷酸肽进行预测。两个数据集一个通过 DDA，另一个通过 DIA 采集。

经过训练的 DeepPhospho 模型在测试集的实验和预测碎片离子强度之间取得了极好的总体一致性。此外，DeepPhospho 能够在模型训练后对两个数据集进行准确的 iRT 预测。对于第三个数据集，DeepPhospho 对碎片离子强度和 iRT 做出了同样准确的预测。

研究人员还将 DeepPhospho 在磷酸肽片段离子强度预测中的性能与最近报道的三个模型进行了比较。在所有情况下， DeepPhospho 在使用相同的磷酸化蛋白质组数据集进行测试时都优于报告的模型。