Machine unlearning aims to remove specific data influences from trained models, a capability essential for adhering to copyright laws and ensuring AI safety. Current unlearning metrics typically measure success by monitoring the model's performance degradation on the specific unlearning dataset ($D_u$). We argue that for Large Language Models (LLMs), this evaluation paradigm is insufficient and potentially misleading. Many real-world uses of unlearning--motivated by copyright or safety--implicitly target not only verbatim content in $D_u$, but also behaviors influenced by the broader generalizations the model derived from it. We demonstrate that LLMs can pass standard unlearning evaluation and appear to have ``forgotten'' the target knowledge, while simultaneously retaining strong capabilities on content that is semantically adjacent to $D_u$. This phenomenon indicates that erasing exact sentences does not necessarily equate to removing the underlying knowledge. To address this gap, we propose \name, an automated stress-testing framework that generates a surrogate dataset, $\tilde{D}_u$. This surrogate set is constructed to be semantically derived from $D_u$ yet sufficiently distinct in embedding space. By comparing unlearning metric scores between $D_u$ and $\tilde{D}_u$, we can stress-test the reliability of the metric itself. Our extensive evaluation across three LLM families (Llama-3-8B, Qwen2.5-7B, and Zephyr-7B-$β$), three distinct datasets, and seven standard metrics reveals widespread inconsistencies. We find that current metrics frequently overestimate unlearning success, failing to detect retained knowledge exposed by our stress-test datasets.


翻译:机器遗忘旨在从训练好的模型中移除特定数据的影响,这一能力对于遵守版权法和确保AI安全至关重要。当前的遗忘评估指标通常通过监测模型在特定遗忘数据集($D_u$)上的性能下降来衡量成功。我们认为,对于大型语言模型(LLMs)而言,这种评估范式是不充分的,且可能产生误导。许多现实世界中的遗忘应用——出于版权或安全动机——不仅隐式地针对$D_u$中的逐字内容,还针对模型从其衍生出的更广泛泛化所影响的行为。我们证明,LLMs可以通过标准的遗忘评估,并看似已经"遗忘"了目标知识,但同时却在语义上与$D_u$相邻的内容上保留强大的能力。这一现象表明,删除确切的句子并不等同于移除了底层知识。为了弥补这一差距,我们提出了\name,一个自动化的压力测试框架,用于生成一个替代数据集$\tilde{D}_u$。该替代集被构建为语义上源自$D_u$,但在嵌入空间中足够不同。通过比较$D_u$和$\tilde{D}_u$之间的遗忘指标得分,我们可以对指标本身的可靠性进行压力测试。我们在三个LLM系列(Llama-3-8B、Qwen2.5-7B和Zephyr-7B-$β$)、三个不同的数据集和七个标准指标上进行广泛评估,揭示了普遍存在的不一致性。我们发现,当前的指标经常高估遗忘的成功率,未能检测出通过我们的压力测试数据集暴露出的保留知识。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
【ICML2022】GALAXY:极化图主动学习
专知会员服务
31+阅读 · 2022年6月12日
专知会员服务
21+阅读 · 2021年8月9日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员