生物医学基础模型：综述

基础模型（Foundation Models）最早于 2021 年提出，是指大规模的预训练模型（如大语言模型（LLMs）和视觉-语言模型（VLMs））。这些模型通过无监督方法从海量的未标注数据中学习，使其在多种下游任务中表现卓越。例如，GPT 等基础模型可以适应各种应用场景，如问答系统和视觉理解，相较于传统的任务专用 AI 模型具有更强的泛化能力，因此得名“基础模型”，体现了其在多个领域的广泛适用性。生物医学基础模型的出现标志着人工智能（AI）在解析复杂生物现象、推进医学研究与临床实践方面迈出了重要一步。本综述探讨了基础模型在生物医学领域的多种应用，包括计算生物学、药物发现与开发、临床信息学、医学影像以及公共健康等方向。本文的目标是激发研究人员进一步探索基础模型在健康科学中的应用潜力，推动该领域的持续发展。

1 引言（Introduction）

“基础模型”（Foundation Model）这一术语最早于 2021 年提出 [1]，通常指大语言模型（LLMs）和视觉-语言模型（VLMs）。这些模型基于大规模数据集进行预训练，通常采用无监督学习方法，使其能够胜任多种下游任务。通过从海量未标注数据中学习，基础模型具备了强大的能力，可将输入映射到潜在嵌入空间，从而能够无缝适配各种任务，并持续优于传统的任务专用 AI 模型 [2,3]。例如，GPT [4] 经过大规模语言与视觉数据的预训练，在问答系统、信息检索和视觉理解等任务中均表现出色。由于其变革性的潜力和广泛的适用性，这些模型被统称为“基础模型”。基础模型的兴起与发展可归因于以下几个关键因素：

海量未标注数据：虽然数据资源极其丰富，但监督训练由于标注成本高昂而难以实现 [1]。
AI 模型规模增长：AI 模型架构日趋庞大，但有限的标注数据限制了其充分利用模型能力 [5]。
通用化的扩展规律：研究发现，通过大规模训练，模型性能会随着模型尺寸、数据规模和计算资源的增加而稳定提升 [6]。
高效的下游任务适配：预训练后，只需少量标注数据进行高效微调，即可在特定任务上超越传统任务专用 AI 模型。

在自然语言和图像处理领域，基础模型（如 GPT 和 Claude）的成功，使得其在医疗健康领域的应用成为了直观的延展方向。基础模型在医疗健康中的应用涵盖多个子领域：

计算生物学：基础模型的卓越自然语言处理能力可以促进计算生物学的发展。DNA、RNA 和蛋白质序列可被视为一种“自然语言”，基础模型能够学习其潜在模式，从而深入解析基因组信息。
药物发现与开发：基础模型可加速靶点识别、优化分子设计，并预测分子间的相互作用与性质，从而降低新药开发的时间和成本 [7]。
临床信息学：基础模型能够高效处理数百万乃至数十亿条临床与患者数据（包括结构化和非结构化数据），提取症状模式，从而提升疾病评估能力，并助力个性化治疗方案的制定。
医学影像分析：基础模型可用于医学影像的分割、异常检测及跨模态（如 MRI、CT）诊断预测 [8]，从而提高诊断准确性并优化医疗工作流。
公共健康：基础模型在疾病监测、流行病建模、错误信息检测等方面的应用，有助于制定更有效的公共健康干预措施。

因此，生物医学基础模型正在不断拓展应用边界，为临床医生、研究人员和患者提供更强的支持。本综述旨在回顾现有生物医学基础模型的研究进展，概述其发展历程，总结当前面临的挑战，并探讨潜在的研究方向，以为健康科学领域的研究人员提供理论基础。具体而言，本文将重点讨论基础模型在计算生物学、药物发现与开发、临床信息学、医学影像和公共健康等多个生物医学领域的应用（见图 1）。

2 计算生物学（Computational Biology）

**

分子生物学的中心法则（central dogma）提供了一个基础框架，描述了遗传信息在生物体内的流动过程 [9]（图 2）。基因组信息以 DNA 形式编码，并转录（transcription）为 RNA，随后翻译（translation）为蛋白质。这个过程将 DNA 的四种核苷酸代码转换为由 20 种氨基酸组成的蛋白质代码，而蛋白质最终折叠成三维结构，以执行各种细胞功能。理解中心法则对于推进遗传学、医学、生物技术和进化生物学的发展至关重要，同时也是基因工程、基因治疗和药物开发等创新领域的基石。因此，诸如三维染色质遗传信息、RNA 介导的基因表达谱，以及支撑细胞功能的蛋白质结构等主题，构成了计算生物学的核心内容。本节探讨基础模型（foundation models）在这些领域的应用，包括基因组信息、基于 RNA 的基因表达谱分析，以及蛋白质结构与功能的研究。

基因组信息（Genome Information）

尽管编码蛋白质合成的遗传密码是通用的，但调控基因表达时间和方式的调控代码在不同细胞类型和生物体之间存在差异 [10]。这种调控代码主要存在于非编码 DNA 区域，后者约占整个基因组的 98%，其中包含关键的功能元件，如增强子（enhancers）、启动子（promoters）和绝缘子（insulators）。这些元件在调控基因表达和抑制过程中发挥重要作用，因此研究非编码 DNA 对于理解基因调控、个体发育、疾病机理和进化过程至关重要。鉴于 DNA 的巨大潜力和影响，研究者们开发了基础模型来增强我们对 DNA 语言的理解。例如，BigBird [11] 率先在 DNA 序列编码方面提出了一种基于 Transformers 的方法，能够处理更长的序列。在此基础上，一系列 DNA 语言模型相继问世，并在多个下游任务（如 RNA 表达预测、增强子活性预测等）中展现了强大的能力。其他相关研究列于表 1。为了公平比较不同的模型，GenBench [12] 提出了一个全面的基准测试套件，以评估不同的基因组基础模型。除了 1D DNA 序列研究外，HiCFoundation [13] 最近被提出用于研究 3D DNA 及其功能意义。结合这些基础模型的研究，有助于深入理解基因组序列与结构对基因调控和表达的影响。

RNA 介导的基因表达谱（Gene Expression Profiles by RNA）

基因表达谱 [14] 是研究基因动态活动的重要工具，能够直接反映基因活性。通过对不同样本或条件下 RNA 分子的丰度进行定量和比较，基因表达谱分析可以识别哪些基因被激活或抑制、哪些基因具有差异表达，或者哪些基因参与特定的生物过程。传统的整体 RNA 测序（bulk RNA-seq）提供的是样本的平均基因表达水平，但这可能掩盖细胞异质性，导致关键信息的丢失。相比之下，单细胞 RNA 测序（scRNA-seq）能够在单细胞水平上解析基因表达模式，为研究细胞多样性和变异性提供了更细粒度的信息。SCimilarity [15] 是单细胞基因表达分析领域最具代表性的基础模型之一，能够在不同单细胞 RNA 测序数据集中比较转录相似的细胞。其他相关基础模型列于表 2。这些模型所生成的基因和细胞嵌入（embeddings）极大地促进了我们对不同细胞类型基因表达动态的理解，并在揭示个体发育、疾病机制和治疗反应的分子基础方面展现出巨大潜力。

蛋白质结构与蛋白质设计（Protein Structure and Protein Design）

预测蛋白质的三维结构和功能在解析生物学过程方面发挥着关键作用 [16]。蛋白质的三维结构决定了其具体功能，例如催化化学反应、传递信号等。准确的结构预测能够揭示疾病的分子基础，并进一步指导药物发现。近年来，计算方法为填补蛋白质结构知识的空白、揭示分子层面的生命复杂性提供了一种高效且可扩展的方式。 AlphaFold2 [17] 作为高精度蛋白质结构预测的大规模模型，已在结构生物学领域引发革命。它能够以接近实验水平的准确度预测蛋白质结构，大幅加速了人们对蛋白质功能和相互作用的研究。在蛋白质结构预测取得突破的基础上，蛋白质设计（protein design）也迅速发展为一个互补学科，研究人员可以通过计算方法创造或改造具有特定功能或性质的蛋白质。蛋白质设计使得新型酶、治疗性分子和药物的开发成为可能，为医学、生物技术和合成生物学提供了新的解决方案，从而推动疾病治疗和可持续工业流程的发展。最近的研究进一步推动了大规模模型和基础模型在蛋白质结构预测与蛋白质设计方面的应用，相关进展总结于表 3。