蛋白质大语言模型：综述

蛋白质特定的大语言模型（Protein LLMs）正在通过实现更高效的蛋白质结构预测、功能注释和设计，彻底改变蛋白质科学。

尽管现有的综述文章侧重于特定的方面或应用，本研究提供了首个关于蛋白质大语言模型的全面综述，涵盖了其架构、训练数据集、评估指标和多样化的应用。通过对超过100篇文章的系统分析，我们提出了一个结构化的分类法，系统总结了最前沿的蛋白质大语言模型，分析了它们如何利用大规模蛋白质序列数据提高准确性，并探讨了其在推动蛋白质工程和生物医学研究中的潜力。此外，我们还讨论了关键挑战和未来方向，将蛋白质大语言模型定位为蛋白质科学中科学发现的关键工具。相关资源可在 https://github.com/Yijia-Xiao/Protein-LLM-Survey 获取。

1 引言

“蛋白质是生命的机械，理解它们的语言将揭开生物学的秘密。” — 大卫·贝克（2024年诺贝尔奖获得者）蛋白质是重要的生物分子，推动着诸如催化生化反应、维持细胞结构和实现细胞间通信等功能。理解蛋白质的序列-结构-功能关系是生物学研究的核心。然而，传统的实验方法，如X射线晶体学、核磁共振（NMR）光谱学和冷冻电镜（cryo-EM），不仅耗时且劳动密集，成为大规模应用的瓶颈。近年来，语言建模的进展彻底改变了计算生物学，提供了强大的蛋白质分析工具。蛋白质大语言模型（Protein LLMs）与传统的大语言模型（LLMs）在多个基础方面有相似之处：

训练目标和学习范式：蛋白质LLMs和LLMs都通过自监督方式，在大规模数据集上进行训练，使用如掩码语言建模（Devlin等，2019）、自回归建模（Luo等，2022）或句子重排（Lewis等，2020；Yuan等，2022）等目标，学习预测序列中缺失或下一个元素。LLMs预测文本数据中缺失的单词或短语（Reimers和Gurevych，2019；Liu等，2019；Touvron等，2023），而蛋白质LLMs则预测蛋白质序列中的氨基酸或子序列。
预训练数据：蛋白质LLMs采用数据驱动的范式，直接从大规模的蛋白质数据集中学习（Liu等，2024b；Jones等，2024）。用于训练蛋白质LLMs的数据集由庞大的蛋白质序列集合构成，类似于LLMs用于训练的文本语料库。这消除了显式特征工程的需要，使得蛋白质LLMs能够学习复杂的模式，如结构模体、进化关系和功能信息，类似于LLMs在语言中捕获语义和句法结构。这一范式的转变催生了高效的模型，能够预测蛋白质折叠、注释生物学功能，甚至设计具有特定特性的全新蛋白质。除了预测能力，蛋白质LLMs还提供了交互式界面，允许用户上传蛋白质序列或结构文件（如PDB格式），提出问题并以对话形式与模型互动（Liu等，2024c；Xiao等，2024b,c），深入理解蛋白质的结构、功能和设计。我们首次进行专门的蛋白质LLMs综述，分析其独特的架构、训练方法和在蛋白质研究中的实际应用。虽然之前的研究探讨了各种计算方法在蛋白质研究中的应用（Chen等，2024c；Wu等，2022），或讨论了语言模型在生物医学（Wang等，2023a）和化学（Liao等，2024）等科学领域的作用，但本综述特别聚焦于蛋白质LLMs——这一在计算生物学和自然语言处理交叉领域快速发展的研究领域。主要贡献如下：

架构概述：提出了最前沿的蛋白质LLMs的结构化分类法（图3），详细介绍了它们在蛋白质理解（§2）和生成（§3）中的独特架构，突出这些模型在效率和准确性上如何超越传统实验方法（附录§A）。
数据洞察：对用于预训练、微调和基准测试的蛋白质LLMs数据集进行全面总结，提供了数据整理策略及其对模型性能影响的关键洞察（§4）。
评估协议：深入讨论了评估蛋白质LLMs性能和影响的方法，包括全新的基准测试策略（§5和附录§B）。
应用：详细探索蛋白质预测、注释和设计中的实际应用，特别强调了最近的创新进展，并展示了蛋白质LLMs在推动生物医学研究方面的变革潜力。