【CMU博士论文】通过对不完美数据的稳健理解与学习推动基础模型的民主化

近年来，生成式人工智能领域经历了前所未有的增长，其背后主要驱动力是大规模基础模型的发展。然而，这一进展也带来了一个关键瓶颈：基础模型的开发正变得日益昂贵且排他，原因在于其高度依赖经过精心策划的大规模数据集。大型科技公司投入巨额资源来收集和清洗用于预训练和适应的大规模数据集。这种以数据为中心的壁垒不仅加剧了资源密集型企业研究与学术界之间的差距，也进一步加重了基础模型“黑箱化”的问题。即便是大型企业，这种数据策划方式也最终会消耗掉大部分高质量数据，难以实现可扩展性。与此同时，大量包含噪声、弱信号和偏差的不完美数据资源依然触手可及且成本低廉，然而在传统范式下，基于这些数据训练的模型往往在性能上逊于基于精心策划数据训练的模型。

随着人工智能日益塑造我们的世界并持续扩张，我们正面临一个根本性挑战：我们如何将这些充满缺陷的不完美数据，从限制转化为推动AI民主化发展的机遇？这种以数据为中心的民主化进程，不仅能提升AI开发的可及性，也将催生更加稳健、适应性更强的基础模型，使其更能反映现实数据的复杂性与多样性。

我的论文正是围绕这一挑战展开，提出了“感知不完美的人工智能”（Imperfection-Aware AI）这一范式转变，使AI系统能够有效利用廉价且不完美的数据资源。将基础模型训练置于多样且真实世界的不完美数据中，天然地使其暴露于人类生成内容的复杂性与细节，从而提升模型应对真实世界变异的能力。通过将传统视为缺陷的“不完美数据训练”转化为优势，我们可以推动构建更稳健、更具伦理性且具有普适适应能力的AI系统，为全球研究者和开发者提供可及的AI技术。

为实现这一愿景，我的研究重点围绕以数据为中心的方法展开，旨在理解基础模型在不完美数据训练下的“物理机制”，缓解由数据缺陷带来的潜在不良影响，并充分利用各种不完美数据和标签以实现更稳健的学习能力：

探索预训练数据不完美性的影响：我研究了不同类型的数据缺陷（如损坏、偏差、多样性）如何在预训练过程中影响基础模型的“物理行为”。我的研究是最早揭示预训练过程中引入一定程度数据不完美性有助于模型泛化能力的工作之一。这一发现从根本上改变了我们对不完美数据的看法——它不再是需要被消除的障碍，而是一种可用于提升模型稳健性并推动AI民主化的宝贵资源。

理解与缓解灾难性继承（Catastrophic Inheritance）：尽管利用不完美数据有助于AI的民主化，我们仍需深入理解其局限性。我提出了“灾难性继承”这一全新研究方向，用以探索预训练数据中的缺陷如何传递并影响下游任务。我开发了开源评估工具，并设计了微调方法以缓解其负面影响，确保模型在使用不完美数据训练的前提下，依然具备可靠性与泛化能力。

利用不完美数据与标签进行迁移学习：为真正实现AI开发的可及性，我提出了一系列稳健学习方法，能够有效利用现有的不完美数据与标签，促进模型在下游任务上的高效适应。值得一提的是，我的工作首次提出了一个通用框架，能够统一处理14种以上的弱监督与噪声监督形式，为实际场景中仅有混合不完美数据的情况下，实现可扩展的迁移学习提供了可能。

本论文旨在为理解基础模型时代下的数据不完美性提供重要见解，将不完美数据学习技术落地应用，并激励相关领域的后续研究。