基础模型通过在大规模多样化数据上的预训练,学习到具有高度可迁移性的表征。
越来越多的研究表明,这些表征在不同的模型架构和模态之间表现出惊人的相似性。本文综述旨在探讨基础模型的表征潜力——即其所学习表征在单一模态内捕获任务特定信息的潜在能力,以及在跨模态对齐与统一中提供可迁移基础的潜能。 我们首先回顾具有代表性的基础模型及使多模态对齐得以量化的关键度量指标;随后,从视觉、语言、语音、多模态以及神经科学等领域综合已有实证研究,以揭示基础模型表征潜力的证据。研究结果表明,基础模型的表征空间往往呈现出结构规律性与语义一致性,使其成为跨模态迁移与对齐的有力候选者。 最后,我们进一步分析促进表征潜力形成的关键因素,讨论尚待解决的开放性问题,并指出未来可能面临的挑战。 基础模型(Foundation Models)通过在海量且异质的数据上进行大规模预训练,已经推动了人工智能领域的显著进展,并极大加速了通用人工智能(AGI)的发展进程(Bommasani et al., 2021; Cui et al., 2022; Firoozi et al., 2023; Azad et al., 2023; Zhou et al., 2024)。 通过学习具有高度可迁移性与通用性的表征,这类模型已成为众多应用领域的核心支撑,包括自然语言处理(Liu et al., 2019; He et al., 2020; Rajendran et al., 2024)、计算机视觉(Dosovitskiy et al., 2021; Liu et al., 2022; Woo et al., 2023; Siméoni et al., 2025)、语音处理(Belinkov and Glass, 2017; Baevski et al., 2020; Radford et al., 2023)、机器人(Brohan et al., 2022; Team et al., 2025)以及医学领域(Moor et al., 2023; Huang et al., 2024; Khan et al., 2025)。 越来越多的研究表明,基础模型所学习到的表征不仅在单一任务中具有强大的表达能力,而且在不同的模型架构、训练目标乃至模态之间也表现出显著的相似性(Wentworth, 2021; Ng et al., 2023; Liu et al., 2023; Sharma et al., 2024; Huh et al., 2024; Maniparambil et al., 2024; Wang et al., 2025)。我们将这种能力称为基础模型的表征潜力(representation potential)。 这一视角具有重要意义:如果基础模型在训练过程中自然地趋向于共享的表征结构,它们可能在无显式对齐(explicit alignment)的情况下,就已逼近模态无关的抽象表示,并编码关于世界的共同统计规律。理解这种潜力不仅有助于推动关于表征学习的科学理论发展,还能带来诸多实际益处,例如提升模型的互操作性、可迁移性、可解释性,以及与生物认知机制的对齐。 在本综述中,我们聚焦于单模态基础模型的表征潜力,旨在评估其跨模态对齐的潜能。全文围绕以下四个核心主题展开: 1. 模型综述:介绍视觉、语言、语音与多模态领域的代表性基础模型; 1. 度量方法:回顾用于量化表征对齐的关键指标,包括中心核对齐(Centered Kernel Alignment, CKA)(Kornblith et al., 2019)、典型相关分析(Canonical Correlation Analysis, CCA)(Morcos et al., 2018)以及互最近邻方法(Mutual Nearest Neighbors, MNN)(Haghverdi et al., 2018); 1. 实证证据:综合视觉、语言、语音、跨模态与神经科学等领域的研究,探讨表征潜力的实证发现; 1. 驱动因素:分析促进表征潜力形成的关键因素,如模型规模、结构归纳偏置、训练目标以及任务与指令多样性。
同时,我们还指出若干亟待解决的开放性问题:模态间收敛的边界、表征评估标准的稳健性、偏差与社会技术语境的影响,以及在特定领域中可能出现的表征分歧(domain-specific divergence)。 本文的结构如下: 第2节介绍不同模态下的基础模型; 第3节回顾主要的表征相似性与对齐度量; 第4节总结视觉、语言、语音、跨模态及神经科学领域中关于表征潜力的证据; 第5节分析表征对齐的内在驱动因素,包括规模、架构、训练范式与任务特征; 第6节讨论开放问题与挑战; 第7节总结全文并展望未来研究方向