出于隐私、可用性和/或被遗忘的权利的需要,有些特定样本的信息需要从模型中移除,这是机器遗忘(Machine Unlearning)技术,这篇综述阐述最新进展。
机器学习已引起广泛关注,并发展成为一种推动各种成功应用的关键技术,如智能计算机视觉、语音识别、医学诊断等。然而,出于隐私、可用性和/或被遗忘的权利的需要,有些特定样本的信息需要从模型中移除,这就是所谓的机器遗忘(Machine Unlearning)。这种新兴技术由于其创新性和实用性,吸引了学术界和产业界的极大关注。与此同时,这个雄心壮志的问题引发了大量研究努力,目标是应对其挑战。据我们所知,尚无研究分析过这个复杂话题,或者比较了不同情境下现有遗忘解决方案的可行性。因此,我们通过这项调查**,旨在捕捉遗忘技术的关键概念**。根据它们的特性,我们对现有的解决方案进行了分类和总结,并对每个类别的优点和限制进行了最新和全面的回顾。最后,综述通过强调遗忘技术的一些突出问题,以及一些新的研究机会的可行方向,做出了结论。
https://www.zhuanzhi.ai/paper/2d42a17084176f403d18dd38b865a55e
1. 引言
近年来,机器学习在人工智能(AI)的每个领域都取得了显著的进步和广泛的探索[1]。然而,随着AI变得越来越依赖数据,越来越多的因素,如隐私问题,法规和法律,正在导致一种新类型的请求 - 删除信息。具体来说,关注方要求从训练数据集中删除特定样本,并从已经训练过的模型中删除这些样本的影响[2-4]。这是因为会员推断攻击[5]和模型反转攻击[6]可以揭示关于训练数据集特定内容的信息。更重要的是,全球的立法者明智地引入了赋予用户被遗忘权的法律[7,8]。这些规定,包括欧洲联盟的通用数据保护法规(GDPR)[9],加利福尼亚消费者隐私法案(CCPA)[10],个人信息保护法(APPI)[11]和加拿大拟议的消费者隐私保护法(CPPA)[12],都强制删除私人信息。
1.1 机器遗忘的动机
机器遗忘(又称选择性遗忘、数据删除或擦除)要求可以从训练数据集和已训练的模型中完全且快速地移除样本及其影响[13-15]。图1展示了一个机器遗忘的已训练模型示例。机器遗忘不仅由法规和法律驱动,也源于数据提供者的隐私和安全考虑,以及模型所有者自身的需求。事实上,从模型中移除离群训练样本的影响会提高模型的性能和稳健性[16]。有一些类似于机器遗忘的现有数据保护技术,但它们在目标或理由上存在差异。在此,我们简要讨论当前技术和机器遗忘之间的主要差异。
• 差分隐私。差分隐私[17,18]保证通过查看模型输出,无法判断一个样本是否在训练数据集中。这种技术确保了每个样本对最终模型的贡献都有一个微妙的界限[19,20],但机器遗忘的目标是移除用户特定的训练样本。 • 数据掩蔽。数据掩蔽[21]旨在隐藏原始数据集中的敏感信息。它将敏感数据转换,以防止它们在不可靠的环境中被披露[22]。相比之下,机器遗忘的目标是防止训练模型泄露其训练样本的敏感信息。 • 在线学习。在线学习[23]根据反馈过程中的数据快速调整模型,使模型能够及时反映在线变化。在线学习和机器遗忘的一个主要区别在于,前者需要一个合并操作来整合更新,而机器遗忘是一个反向操作,当收到遗忘请求时,它会消除那些更新[24]。 • 灾难性遗忘。灾难性遗忘[25,26]指的是当模型为新任务微调时,对之前学过的任务的表现显著下降。灾难性遗忘使深度网络失去准确性,但通过分析权重,可能仍然可以访问到其使用的数据的信息[27],因此,它不满足机器遗忘所需的条件。 当用户撤销对某些训练数据的权限时,仅从原始训练数据集中删除这些数据是不够的,因为攻击者仍然可以从训练好的模型中揭示用户信息[28]。一个直接的方法完全从模型中移除信息是从头开始重新训练它(图1中的重新训练过程)。然而,许多复杂的模型都是基于大量样本构建的。重新训练通常是一个计算量大的过程[29,30]。更重要的是,在一些特定的学习场景中,如联邦学习[31,32],训练数据集可能无法获取,因此无法进行重新训练。因此,为了降低计算成本并在所有情况下都能进行机器遗忘,应该提出新的技术(图1中的遗忘过程)。
1.2 本调查的贡献
机器遗忘在许多应用中发挥了重要作用[33, 34]。然而,其实施和验证策略仍未完全探索。这个领域有各种概念和多种验证方案,机器遗忘和其他技术之间的界限也模糊不清。这些现象激励我们编写一份全面的调查,总结、分析和分类机器遗忘技术。在这个调查中,我们旨在找到一个明确的方式来呈现机器遗忘中的想法和概念,展示它们的特点,突出它们的优势。此外,我们提出了一个新的分类法,用于分类最新的文献。我们希望这份调查能为希望了解这个领域的读者提供深入的概览,也为推动创新和拓宽研究视野提供一块垫脚石。本文的主要贡献如下: • 我们提出了一种基于理由和遗忘策略的新型机器遗忘技术分类法。 • 我们根据提出的分类法全面总结了最新的遗忘方法,展示了它们的优点和缺点。 • 我们总结了分类法中的机器遗忘验证方法,并回顾了与相关遗忘技术的实现。 • 我们对机器遗忘中的开放问题进行了关键的深入讨论,并指出了可能的进一步研究方向。
2. 预备知识
(机器遗忘[29])。考虑一群我们想从训练数据集和训练模型中移除的样本,记为D𝑢。遗忘过程U (A (D), D, D𝑢)被定义为从一个已训练的模型A (D)、一个训练数据集D和一个遗忘数据集D𝑢到一个模型w𝑢的函数,该函数确保遗忘后的模型w𝑢表现得就像它从未见过遗忘数据集D𝑢一样。
图2展示了与机器遗忘相关的典型概念、遗忘目标和期望。机器遗忘涉及的基础技术包括几个方面,如集成学习、凸优化等[38]。这些技术为不同的基础遗忘需求提供了坚实的保证,这些需求包括各种类型的模型和遗忘请求,从而产生了多种遗忘场景和相应的验证方法。此外,为了确保有效性,遗忘过程需要不同的目标,如精确遗忘或强遗忘。每个遗忘目标确保了遗忘后模型和重新训练模型的参数分布之间的不同相似性。机器遗忘也涉及到几个遗忘期望,包括一致性、准确性和可验证性。这些期望,加上目标约束,同时保证了每个遗忘方案的有效性和可行性。
3. 遗忘和验证机制的分类
图4总结了本文中使用的机器遗忘及其验证的一般分类。这个分类法受到遗忘策略设计细节的启发。集中于修改训练数据的遗忘方法被分类为数据重组,而直接操纵训练模型权重的方法被称为模型操作。至于验证方法,我们首先将这些方案分类为实验型或理论型,然后根据它们使用的指标对这些方法进行总结。
4 结论
机器学习方法已成为推动各种应用革新的强大驱动力。然而,它们也因隐私、可用性或其他权利要求而带来了从模型中删除训练样本的请求。机器遗忘是一种新的技术,可以满足这些删除请求,已经进行了许多相关的研究。在这个调查中,我们对机器遗忘技术提供了全面的概述,特别关注两种主要的遗忘过程:数据重组和模型操作。首先,我们提供了机器遗忘的基本概念和不同目标。通过分析典型方法,我们提出了一种新的分类法,并总结了它们的基本原理。我们还回顾了许多现有的研究,并在每个类别中讨论了这些研究的优点和局限性。此外,我们强调了验证机器遗忘过程的重要性,并回顾了可以验证机器遗忘的不同方式。最后,我们讨论了一些值得未来研究的问题,并提供了一些需要在未来探索的可行方向。我们未来的工作将专注于探索机器遗忘在联邦学习等领域的潜力,并考虑验证性属性。