《深度学习在蛋白质科学中的进展》综述

蛋白质表示学习在理解蛋白质的结构和功能中扮演着关键角色，蛋白质是参与各种生物过程的基本生物分子。近年来，由于能够从大规模蛋白质数据中学习复杂的模式和表示，深度学习已成为蛋白质建模的强大工具。本综述旨在提供一个关于应用于蛋白质科学的深度学习技术的最新进展的概述。综述首先介绍基于深度学习的蛋白质模型的发展，并强调蛋白质表示学习在药物发现、蛋白质工程和功能注释中的重要性。接着，它深入探讨了深度学习的基本原理，包括在模型蛋白质序列、结构和功能时使用的卷积神经网络、循环神经网络、注意力模型和图神经网络，并探讨这些技术如何用于提取有意义的特征和捕捉蛋白质数据中的复杂关系。随后，综述展示了深度学习在蛋白质领域的各种应用，包括蛋白质结构预测、蛋白质-蛋白质相互作用预测、蛋白质功能预测等。此外，它还强调了这些深度学习技术的挑战和局限性，并讨论了克服这些挑战的潜在解决方案和未来方向。这份综述为对利用深度学习技术感兴趣的蛋白质领域的研究者和从业者提供了宝贵的资源。它是研究者理解蛋白质科学、开发强大的蛋白质模型并解决实际问题的实用指南。通过整合最新进展并讨论改进的潜在途径，这篇综述为蛋白质研究的持续进展做出了贡献，并为该领域未来的突破铺平了道路。

蛋白质是生命的工作马，它们在从治疗学到材料学的广泛应用中扮演着至关重要的角色。蛋白质由二十种不同的基本化学构建块（称为氨基酸）构成，这些氨基酸折叠成复杂的三维（3D）结构集合，这些结构决定了它们的功能并协调细胞的生物过程[1]。蛋白质建模是生物信息学和计算生物学中的一个重要领域，旨在理解蛋白质的结构、功能和相互作用。随着深度学习技术的快速进步，对蛋白质领域产生了显著的影响[2]，使得预测更加准确，并在各个生物研究领域促进了突破。

蛋白质结构决定了它们与其他分子的相互作用以及执行特定任务的能力。然而，从氨基酸序列预测蛋白质结构是一项挑战，因为蛋白质序列的微小扰动可以极大地改变蛋白质的形状，甚至使其无用，而且多肽是灵活的，可以折叠成大量不同的形状[3,4]。确定蛋白质结构的一种方法是使用实验方法，包括X射线晶体学、核磁共振（NMR）光谱学[5]和冷冻电子显微镜（cryo-EM）[6]。不幸的是，实验室结构测定方法昂贵且不能用于所有蛋白质。因此，蛋白质序列远多于可用的结构和注释[7]。例如，蛋白质数据库（PDB）中大约有190K（千）个结构[8]，而UniParc中有超过500M（百万）个序列[9]，ProteinKG25中只有大约5M的基因本体（GO）术语三元组[10]，包括约600K蛋白质，50K属性术语。

近年来，应用深度学习技术于蛋白质领域的兴趣日益增长。研究人员已经认识到深度学习模型学习复杂模式和从大规模蛋白质数据中提取有意义特征的潜力，这些数据包括蛋白质序列、结构、功能和相互作用的信息。一个特别活跃的研究领域是蛋白质表示学习（PRL），它从自然语言处理（NLP）中使用的方法中获得灵感，旨在学习可用于各种下游任务的表示[11]。然而，蛋白质研究的一个主要挑战是标记数据的稀缺性。标记蛋白质通常需要耗时且资源密集的实验室实验，使得获得足够的标记数据以训练深度学习模型变得困难。为了解决这个问题，研究人员采用了预训练和微调的模式，类似于在NLP中执行的操作。这种方法包括在预训练任务上预训练模型，从中获得关于蛋白质数据的知识，然后在下游任务上使用较少量的标记数据进行微调。在预训练阶段，常用自监督学习方法来学习蛋白质表示。一种流行的预文本任务是预测掩码标记，其中模型被训练为在给定周围序列的情况下重建损坏的标记。已开发了几种知名的预训练蛋白质编码器，包括ProtTrans [12]、ESM模型[13,14]和GearNet[15]。这些预训练模型在各种蛋白质任务中已证明其有效性，并促进了蛋白质研究的进步。图1展示了用于各种任务的基于深度学习的蛋白质模型的综合流程。

用于蛋白质的深度学习模型广泛应用于各种应用中，如蛋白质结构预测（PSP）、性质预测和蛋白质设计。预测蛋白质序列的3D结构是一个关键挑战。计算方法传统上采取了两种方法：（a）侧重于物理相互作用或（b）侧重于进化原理[16]。（a）基于物理的方法通过使用分子动力学或基于势能场的片段组装来模拟氨基酸链的折叠过程。这种方法强调物理相互作用以形成最低自由能状态的稳定3D结构。然而，由于分子模拟的计算复杂性、片段组装的有限准确性以及准确建模蛋白质物理学的困难，将这种方法应用于中等大小的蛋白质是极具挑战性的[17, 18]。（b）另一方面，最近蛋白质测序的进步导致了大量蛋白质序列的可用性[19, 20]，使得能够为同源蛋白生成多序列比对（MSAs）。随着这些大规模数据集的可用性和深度学习模型的发展，基于进化的模型，如AlphaFold2（AF2）[16]和近期工作[21-24]在PSP中取得了显著成功。随着研究人员继续探索这些模型的潜力，他们现在正专注于开发更深入的模型来解决尚未解决的更具挑战性的问题。

在以下部分中，我们提供了定义、常用术语和解释了在蛋白质研究中使用的各种深度学习架构。这些架构包括卷积神经网络（CNN）、循环神经网络（RNN）、变压器模型和图神经网络（GNN）。尽管深度学习模型在蛋白质研究领域的应用日益增加，但仍需要对这个快速发展的领域进行系统总结。现有的与蛋白质研究相关的综述主要关注生物学应用[25-27]，而没有更深入地探讨其他重要方面，例如比较不同的预训练蛋白质模型。我们探讨了这些架构如何被适应用作蛋白质模型，总结并对比了用于学习蛋白质序列、结构和功能的模型架构。此外，还讨论了为蛋白质相关任务优化的模型，例如PSP、蛋白质-蛋白质相互作用（PPI）预测和蛋白质性质预测，突出显示了它们的创新和差异。此外，还提供了一系列资源，包括深度蛋白质方法、预训练数据库和论文列表[1][2]。最后，本综述介绍了现有方法的局限性和未解决的问题，并提出了可能的未来研究方向。图2展示了本文组织的概览。

据我们所知，这是针对蛋白质的第一份综述，专门关注大规模预训练模型及其联系、对比和发展。我们的目标是协助蛋白质和人工智能（AI）领域的研究人员开发更合适的算法。