基础模型——即在网络规模数据上训练的大型神经网络——已经深刻地改变了人工智能领域。然而,其对海量互联网语料的依赖也带来了两个关键挑战。

首先是负责任的数据使用问题:模型有时会记忆并复述训练数据中的敏感信息或受版权保护的内容,从而引发隐私与法律风险。因此,确保训练数据的可归因性(attribution),以及在事后能够从模型中卸除(unlearn)特定数据的能力,成为至关重要的需求。

其次是高效的数据使用问题:不加区分地扩大训练数据规模和模型规模在计算上代价高昂,尤其是在高质量网络数据日益稀缺的背景下。为此,必须通过审慎的数据筛选与数据增强策略,提高训练过程的整体效率。

本论文围绕上述两项挑战展开研究,提出了一系列新的方法与理论贡献,并组织为两个主题:(1)基础模型中记忆行为的理解与缓解,以及(2)大规模场景下的数据质量提升与训练效率优化。 在主题(1)中,我们提出了用于将模型输出归因到具体训练数据的技术,设计了检测并定位模型参数中被记忆知识的方法,并构建了内容卸除框架,以防止隐私信息泄露。在主题(2)中,我们引入了刻画与过滤网络规模数据以实现最大效用的方法,建立了在计算资源受限条件下指导训练数据集构建的缩放定律(scaling laws),并利用合成数据生成显著加速模型的预训练过程。 通过综合上述研究,本论文提出了一条通向新一代基础模型的发展路径,使其能够在负责任地利用网络规模数据的同时——保障隐私与数据权益——实现高效的学习,即在每一单位数据与计算资源上提取尽可能多的性能收益。 过去几年中,基础模型(foundation models)迅速兴起,代表性系统包括 GPT-3 [Brown et al., 2020b] 和 CLIP。这类模型在前所未有规模的互联网文本与图像数据上进行训练,通过将模型参数规模扩展至数百亿量级(例如 1750 亿参数),并利用多样化的网络抓取语料进行训练,展现出显著的跨领域能力 [Brown et al., 2020b]。这些模型无需针对具体任务进行专门训练,便能够完成零样本问答、翻译、图像识别等多种任务。 然而,对网络规模数据的高度依赖也带来了新的挑战。与传统监督学习中使用的精心构建的数据集不同,网络数据通常是非结构化的、噪声较多的,并且大量包含涉及隐私与版权的敏感内容 [Schwarzschild et al., 2024b]。这引发了一个紧迫的问题:如何以负责任的方式获取并使用此类数据。一方面,更多的数据通常意味着更好的模型性能;但另一方面,不加区分地使用原始网络数据,可能会在模型中嵌入有害的记忆行为,或将计算资源浪费在低质量内容上。 一个核心问题是训练数据的记忆(memorization)。当模型接触到数十亿级别的 token 时,不可避免地会逐字学习并记住一些稀有或唯一的序列。已有研究表明,大语言模型可能会无意中复述其训练集中包含的个人信息或受版权保护的文本 [Schwarzschild et al., 2024b; Carlini et al., 2021c]。例如,研究发现 GPT-2 记忆了超过 600 条训练数据片段,其中包括私人细节,这些内容可以通过精心设计的提示被提取出来 [Carlini et al., 2021c]。此外,训练过程中对数据的重复使用会显著放大模型的记忆行为 [Carlini et al., 2021c]。这不仅带来了严重的隐私风险,也使模型难以满足诸如 GDPR 所规定的“被遗忘权”等合规要求。 在网络规模下,单纯在训练前移除所有敏感数据并不可行,因为敏感内容往往难以事先可靠识别。因此,亟需在训练完成之后检测并管理模型中的记忆行为。同样重要的是,将模型所学知识归因到其训练数据来源:若缺乏有效的归因机制,内容创作者无法获得署名或补偿,未授权数据的使用也难以及时发现。近年来的一些高调案例(例如艺术家发现其作品被图像生成模型复现)进一步凸显了模型训练过程中数据溯源(data provenance)的重要性。 另一项关键挑战在于数据质量与扩展效率。网络抓取语料中包含大量噪声,例如垃圾内容、重复数据、格式混乱的文本,或仅具有表面相关性的图像。使用此类数据进行训练往往效率低下:它消耗了巨量计算资源,却只能带来边际收益,甚至会损害模型的泛化能力。鉴于此,近期的工作(如 LAION-5B)采用了激进的数据过滤策略,丢弃了约 90% 的图像–文本对,仅保留图文对齐度较高的数据 [Schuhmann et al., 2022]。然而,如何在不同计算预算约束下最优地构建训练数据集,仍然是一个悬而未决的问题。 仅使用“最高质量”的数据可能无法充分利用可用的计算资源——当模型已多次见过这些数据后,继续增加训练轮次会产生明显的边际收益递减 [Goyal et al., 2024];而在训练时间允许的情况下,引入更多质量稍低的数据反而可能提升性能 [Goyal et al., 2024]。这一权衡表明,数据筛选策略应当具备计算感知能力(compute-aware)。此外,随着模型规模持续增长,现有的缩放定律(例如 Chinchilla 所提出的模型规模与数据规模的最优平衡)要求使用越来越庞大的训练数据集,而真正高质量的数据可能在不久的将来面临枯竭 [Maini et al., 2024d]。因此,如何在不成比例增加成本的前提下,通过数据生成或数据增强扩大“有效数据规模”,成为一项至关重要的研究方向。 综上所述,在基础模型训练中,责任性效率性这两个目标往往与数据规模本身形成张力。本论文开题报告围绕这两个目标展开研究,并组织为两个主题: * 基础模型中的记忆行为(负责任的数据使用):如何检测、量化并缓解大模型对训练数据的记忆?我们将研究模型输出与训练数据来源的归因方法,定位模型内部被记忆知识的技术,以及在训练后卸除或消除特定数据影响的算法。通过这些方法,旨在防止隐私泄露,确保模型不保留其不应记住的数据,从而实现对网络规模数据更加可问责的使用。 * 数据质量与训练效率(高效的数据使用):如何在单位数据与计算资源上最大化模型性能?我们将提出用于刻画数据价值的度量指标(以识别错误标注或信息量不足的样本),设计新的数据过滤算法以构建更优的训练集,建立在计算约束下指导数据使用的缩放定律,并探索利用信息丰富的合成数据增强训练集的方法。这些技术能够降低所需的训练计算量,并缓解基础模型训练所带来的环境与经济成本。

论文共分为六章,每一章围绕上述贡献中的一项或多项展开。第 1 章聚焦于数据集归因与溯源,提出用于追踪模型训练数据来源的方法,并对 AI 数据集中许可情况进行大规模审计。第 2 章深入分析记忆机制,定义新的记忆度量指标,并精确定位神经网络中存储记忆知识的位置。第 3 章讨论卸除学习与记忆感知训练策略,包括语言模型“遗忘”能力的评测基准,以及在训练过程中识别并移除被记忆内容的方法。 随后,论文转向数据质量与效率问题:第 4 章提出一种数据过滤方法,通过移除无效样本(例如图像与描述存在虚假匹配的视觉数据)来提升数据质量;第 5 章引入用于数据筛选的缩放定律,指导如何在固定计算预算下在不同质量的数据之间进行合理分配;第 6 章探讨合成数据在减少训练数据需求和加速预训练过程中的作用。最后,论文在“未来工作”部分总结并展望构建安全、高效的下一代基础模型训练流水线的若干开放问题。后续章节将详细阐述各章节的主题、研究贡献与关键结果。

成为VIP会员查看完整内容
0

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【CUHK博士论文】现代机器学习中的因果性学习
专知会员服务
35+阅读 · 1月24日
【ETHZ博士论文】金融网络与图学习的其他探索
专知会员服务
19+阅读 · 1月22日
【MIT博士论文】高效深度学习计算的模型加速
专知会员服务
34+阅读 · 2024年8月23日
【普林斯顿博士论文】理解数据在模型决策中的作用
专知会员服务
41+阅读 · 2024年4月26日
论文浅尝 | 采用多层注意力机制的事件检测
开放知识图谱
24+阅读 · 2019年8月24日
论文浅尝 | 基于深度强化学习的远程监督数据集的降噪
开放知识图谱
29+阅读 · 2019年1月17日
SFFAI报告 | 常建龙 :深度卷积网络中的卷积算子研究进展
人工智能前沿讲习班
11+阅读 · 2018年10月22日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2012年12月31日
Arxiv
174+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
494+阅读 · 2023年3月31日
Arxiv
178+阅读 · 2023年3月24日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员