现代人工智能的定义已被大型神经网络的使用所塑造,这些网络在大规模的网络数据集上进行训练。由于训练数据集的规模庞大,这些数据集已无法被有效过滤。我们展示了这些模型能够逐字复现私密数据,并可能学到有害或有毒的行为,即使私密或有害数据在训练数据中仅占很小的比例。理解为什么以及如何模型会学习到不良行为,例如记住私密数据或产生有害行为,已经成为AI安全社区的核心问题,这是缓解私密数据记忆和防止模型生成有害响应的第一步。 我们的核心洞见在于,过参数化模型中的某些参数在自然状态下是稀疏更新的,也就是说,这些参数仅用于拟合一些分布外的数据。这使得攻击者能够通过设计数据或梯度更新,专门针对这些稀疏更新的参数,改变模型在一小部分输入上的行为。同样,我们提出基于稀疏性的防御措施,限制模型的更新范围至那些对大部分训练最重要的参数。 计算机安全中的一个基本概念是限制攻击面,而我们通过稀疏训练在机器学习中实现了这一点。我们将稀疏性的方法应用于攻击和防御中,以防止模型学习到有害行为或记住私密数据。 基础模型的增长得益于在从网络上抓取的大规模数据集上进行训练,但这也带来了新的隐私和安全问题。网络规模的数据集使得训练万亿参数的基础模型成为可能,但也使我们无法监控输入模型的数据。我们不知道这些数据集中包含了什么,但大量研究已经表明,训练这些数据集中的私密或有害信息存在风险【Carlini et al., 2019, 2021, 2023a, Biderman et al., 2023a】。目前尚不清楚模型是如何学习记忆私密数据的,但很明显我们可以从模型的训练数据中提取出记忆的信息【Nasr et al., 2023a】。我们也不确定模型是如何从其训练数据中获取有害行为的,但已清楚的是,训练好的模型经常表现出有毒的特征或顺从不安全的用户请求【Hubinger et al., 2024】。这种“AI安全”问题尤其令人担忧,因为模型每天都被部署到与人类的交互中,随着模型能力的增强,滥用的潜力也随之增加。 隐私和安全问题已从消费者的担忧上升为对大规模AI研究领域的生存威胁。数据提供者无法阻止用户数据被基础模型记忆并复现,因此他们已经开始关闭对其数据的所有访问;结果是,可用于网络训练的数据量每年都在减少【Longpre et al., 2024】。立法者不愿接受行业研究实验室缺乏问责制的现状,已开始对AI的发展进行监管【Scott Weiner, 2024】。从行业研究实验室到学术研究人员再到联邦机构,各方都有明确而紧迫的动力去理解前沿模型是如何学习到不良行为的,如记住私密数据或产生有害信息,以便防止这些问题并重建对AI的信任。 然而,问题依然未解决。甚至有人对AI监管的主要批评是,这种要求公司控制其模型行为的监管将永远无法奏效,因为公司无法控制模型的行为,正如它们无法控制模型在训练过程中学到的内容一样。 如何防止基础模型从网络规模的数据集中学习到这些不良行为仍然是AI安全中的一个开放问题,因为这需要首先理解并防止最坏情况下的行为。为了理解AI安全问题并加以缓解,我们应用了安全思维【Schoenmakers et al., 2022】。我们试图理解模型可能的最坏行为,然后研究能够证明有效缓解这些行为的方法。我们使用的视角是考虑模型的攻击面。对于前沿模型来说,这个攻击面是数十亿或数万亿个参数。因此,攻击面非常大,攻击者只需找到一个突破口即可。过参数化并不是AI隐私和安全中的唯一挑战,但它是一个主要的挑战。我们观察到“稀疏激活参数”的出现,这些参数仅用于记忆和复现特定行为,如重复信用卡号码或响应有毒评论。通过理解这一主要挑战,我们可以提出一个简单的防御指导原则:限制模型的攻击面。这主要体现在通过有原则地应用降维技术,如稀疏化,来减少模型的参数量。如果我们能够将需要更新的参数数量减少几个数量级,那么我们也可以将攻击面减少几个数量级。
在本论文中,我们将专注于理解AI安全中的最坏情况场景,并探讨基于稀疏性的缓解方法,如稀疏训练。 最坏情况下的AI训练问题源于稀疏性。我们首先在联邦学习(Federated Learning, FL)的背景下考虑对私密数据的适应。由于其分散化的性质,联邦学习系统在训练过程中固有地易受到对抗性后门攻击【Bhagoji et al., 2019】。在这种攻击中,攻击者的目标是通过恶意更新在模型中植入所谓的后门,使得在测试时,模型对某些输入的输出可以被固定为给定目标。在第三章中,我们提出了一种简单的后门攻击修改方案“Neurotoxin”,该方法通过攻击训练中参数变化较小的参数来实施攻击。接下来,我们在拟合模型到用户私密数据的背景下,考虑对私密数据的适应。在这种情况下,我们的主要关注点是理解私密信息如何可能从模型中泄漏。我们首先引入了一组新攻击,这些攻击通过有针对性地设计数据来诱发模型的记忆。在第四章中,我们提出了一种名为“Neural Phishing”的新型攻击,它利用了大语言模型(LLM)中的逐字稀疏性来诱发记忆。我们考虑一种情境,其中攻击者希望模型记住某个用户的未知私密信息,这些信息表现为单个训练样本中的少数几个词元。攻击者能够在模型的训练数据中注入恶意数据。他们设计的序列跨越了用户正常数据分布的支持范围,模型拟合这些数据后,当它看到用户的样本时,只需拟合那些私密词元,因此梯度是逐词稀疏的,模型便记住了这些私密词元。在第五章中,我们介绍了一种LLM的隐私审计方法,这种方法形式化了我们对隐私攻击的直觉。我们的攻击利用了LLM嵌入矩阵更新中的稀疏性,设计出包含在训练数据中极不可能出现的词元模式的诱饵数据,以使嵌入矩阵的梯度稀疏化。 稀疏训练可以缓解隐私和安全问题。在第七章中,我们提出了一种新型防御方法SparseFed,该方法通过全局top-k更新稀疏化和设备级梯度剪辑来缓解联邦学习中的模型中毒攻击。我们为分析防御措施对中毒攻击的鲁棒性提供了理论框架,并对我们的算法的鲁棒性和收敛性进行了分析。在第六章中,我们将稀疏性与隐私的关系应用于差分隐私(DP)模型训练的改进。我们的隐私审计结果显示,模型的最坏隐私损失出现在数据可以诱发稀疏梯度更新的场景中。因此,我们设计了一种方法,通过仅更新低维度的参数集来限制模型的攻击面。我们的方法在DP训练的计算效率、隐私保护和质量方面比之前的工作有了显著提高。在第八章中,我们将稀疏训练用于多种模型适应情境中的安全改进,并提出了“Lottery Ticket Adaptation”方法。我们的方法通过识别“中奖票”,即在将预训练模型适应给定任务时最重要的参数,创建了一个静态稀疏掩码,用于整个训练过程。我们证明了这种稀疏性约束在模型适应过程中可以防止模型学习到有害行为。