这是首个关注大型语言模型(LLM)中隐私问题的活跃人工智能研究领域的综述。具体而言,我们专注于对模型进行红队测试以突显隐私风险、尝试在训练或推理过程中构建隐私保护、实现训练模型的高效数据删除以符合现有隐私法规、以及试图缓解版权问题的工作。我们的重点是总结开发算法、证明定理并进行实证评估的技术研究。虽然有大量法律和政策工作从不同角度应对这些挑战,但这不是我们综述的重点。尽管如此,这些工作以及近期的法律进展确实影响了这些技术问题的形式化,因此我们将在第1节简要讨论它们。虽然我们已尽最大努力包含所有相关工作,但由于该研究领域发展迅速,我们可能遗漏了一些最新的工作。如果我们错过了您的工作,请与我们联系,因为我们将尝试保持这份综述相对最新。我们正在维护一个仓库,其中包含本综述涵盖的论文列表和当时公开可用的任何相关代码,网址为 https://github.com/safr-ml-lab/survey-llm。

ChatGPT于2022年11月推出,迅速在全球引起轰动,激发了人工智能研究、初创企业活动以及大型语言模型(LLM)的消费者采用的爆炸性增长。到2023年底,LLM的进展持续快速发展,但越来越多的共识认为,除了转型的经济利益外,LLM还带来了重大的社会风险。一个AI安全倡导者阵营专注于开发超级智能带来的存在风险;如AI初创公司Anthropic在其关于AI安全的立场文件中指出:“如果我们构建了一个比人类专家更加能干的AI系统,但它追求与我们最佳利益相冲突的目标,后果可能是严重的。”第二个阵营认为,基于我们当前技术基础构建的超智能系统的风险很小,但同时对现有或近期LLM的误用持严重关注。这些关注集中在当前一代语言模型的可靠性、有害性、偏见、安全性和隐私上,Bommasani等人[2021]。在这份综述中,我们关注最后一个问题——隐私,这是一个多方面的话题,涵盖了关于模型如何开发、微调、部署以及训练后如何修改的研究。虽然管理LLM的监管框架仍处于起步阶段,但到目前为止提出的许多主要提案和法规都已经高度关注隐私。在美国,最近的白宫关于AI的行政命令whi[2023]花费了大量时间讨论AI的隐私风险以及可能的缓解方法。关于潜在风险,报告指出:“人工智能使提取、重新识别、连接、推断和采取行动以获取有关人们身份、位置、习惯和欲望的敏感信息变得更加容易。人工智能在这些领域的能力可能增加个人数据被利用和暴露的风险。”这份综述的前两节回顾了现有工作中暴露的这些隐私风险;特别是大型语言模型倾向于记忆底层训练数据的倾向(第3节),使得隐私攻击可以通过访问模型来暴露底层训练数据(第4节)。有动机的攻击者利用对这些模型的访问权限来反向工程敏感训练数据的程度仍是一个活跃的研究领域,也是潜在的诉讼领域;2023年7月,美国联邦贸易委员会(FTC),负责监督美国消费者保护和反垄断法的政府机构,就开启了对ChatGPT的制造商OpenAI的调查,理由是他们的数据收集实践和服务可能违反用户的隐私权。

行政命令接着讨论了特定的隐私增强技术(PET),可以潜在地挫败这些隐私攻击:“为了应对这一风险,联邦政府将确保数据的收集、使用和保留是合法的,是安全的,并且减轻隐私和保密风险。机构应使用可用的政策和技术工具,包括在适当情况下使用隐私增强技术(PET),来保护隐私并应对更广泛的法律和社会风险,”接着提到了加密方法、联邦学习和差分隐私。第5节回顾了关于DP训练和联邦训练语言模型的现有工作。

由生成模型引发的另一个受到显著关注的隐私问题涉及版权 - 尤其是(i)模型生成的原创内容是否可以受版权法保护以及(ii)模型生成的作品是否可能违反对训练数据的版权保护。已经有几起引人注目的诉讼,涉及模型是否包含版权数据的训练集中生成的特定图像或文本构成合理使用;Getty Images对Stability AI的诉讼,因为未经允许就使用他们的图像进行训练,以及喜剧演员Sarah Silverman对OpenAI和Meta的诉讼,只是其中几个Lucchi[2023]。尽管行政命令没有对由生成模型(如LLM)引发的版权问题提供具体指导,但它要求美国版权局在2024年中期发布指导。虽然在美国对版权数据进行训练的当前法律地位尚不明确,但Lucchi[2023]指出:“如果法院确定数据摄取 - 涉及从一个或多个来源获取未经处理的数据并修改它们以使它们适合于训练AI机器的目的 - 构成侵权行为,那么整个AI系统可能会遇到重大的法律困难。”像确定LLM是否侵犯其训练数据的版权保护问题,以及LLM生成的作品是否可以自己获得版权保护一样,这些问题基本上尚未解决。这里的复杂性包括(i)许多司法管辖区要求人类作者身份来持有版权(ii)如果被迫将版权归属于人类创作者,尚不清楚谁应该获得版权 - 训练数据的创造者、模型训练者还是促成作品创造的最终用户(iii)几个司法管辖区执行“原创性”标准以持有版权,这对AI生成的作品来说可能难以评估。我们在第6节讨论了关于缓解与版权数据训练相关的版权问题的早期算法工作。

自2018年以来,通用数据保护条例(GDPR)一直是规定数据隐私实践和对在欧盟开展业务的公司的违规处罚的主要法规集。尽管GDPR并没有明确涉及AI,但其许多条款可以被解释为适用于AI系统。特别是其中的“删除权”赋予个人在提交请求后要求公司删除其个人数据的权利。虽然这些个人数据可以以相对直接的方式从数据库中删除(尽管即使如此,鉴于数据库在底层实施的细微差别,这也可能是棘手的;参见Villaronga等人[2018]),但鉴于模型本身泄露训练数据中的私人信息的能力(第3、4节),这自然引发了如何从训练后的模型中删除或“遗忘”训练点的问题。这是机器学习中的一个活跃研究领域,其中遗忘方法也可用于在训练后从模型中移除有害、错误或受版权保护的数据的影响Nguyen等人[2022]。第7节回顾了LLM遗忘的早期工作。

**针对语言模型的隐私攻击 **

在本节中,我们回顾了针对语言模型的隐私攻击的近期研究。这些近期工作是在机器学习领域长期研究ML模型隐私攻击的基础上建立起来的,通常在分类设置中。我们推荐读者参考Hu等人[2022],Liu等人[2021]的综合性综述。隐私攻击主要可以分为两类:成员资格推断攻击(MIAs)和训练数据提取攻击(以及我们将简要讨论的属性推断攻击)。MIAs是一种较不明显的严重隐私攻击,其中一个对手,在获得模型的访问权限后,能够高精度地确定某个特定点是否被用于训练该模型。虽然这表明一些关于训练点的信息通过模型“泄露”,但鉴于对手仍然需要访问可能用于训练模型的候选点才能运行攻击,这更像是一个“烟雾信号”而不是直接的隐私侵犯。另一方面,训练数据提取是指对手获得模型的访问权限后,实际上能够重建底层训练数据的部分内容,这些数据可能是敏感的或受法律保护的。 然而,在处理生成模型时,MIAs有可能促进训练数据提取攻击,这使得它们变得更为重要。这里的关键技巧是对手可以利用记忆化:如第3节所讨论的,语言模型逐字记忆了它们的训练数据,并可以被提示重复这些训练示例。配备了可以识别出训练样本与分布样本的MIA,对手接着可以使用该攻击来找到最有可能是训练点的生成点,并“提取”它们。我们将在第4.3节进一步讨论这一点。 我们首先讨论MIAs的基础知识,然后涵盖针对语言模型的MIAs,这些与针对标准模型的攻击在一些关键方面有所不同。然后我们覆盖了从语言模型中的训练数据提取,并讨论缓解隐私攻击的方法。 **保护隐私的大型语言模型 **

如第3节和第4节所讨论的,使用LLM带来了许多隐私风险,这引发了一个显而易见的问题:是否可以以保护训练数据隐私的方式预训练或微调LLM,同时也保持其实用性?在本节中,我们将探讨旨在私密训练语言模型的方法,这些方法基于两种高层次的隐私风险框架。第一个框架关注对手基于对模型的访问程度推断出底层训练数据信息的能力;例如进行成员资格推断或训练数据提取。通过使用差分隐私训练模型可以解决这种风险。另一种隐私框架由联邦学习解决,其中训练数据以分布式方式存储,目标是学习一个基于分布式数据训练的集中式语言模型,而无需集中式地聚合数据。谷歌和苹果等公司使用这两种框架来保护用户隐私 Ippolito [2020]。在第5.1节中,我们将介绍差分隐私和联邦学习,在第5.2节中,我们将讨论早期在私密训练语言模型方面的成果。 版权

在过去几年中,使用AI生成音乐、代码和各种艺术作品的情况显著增加 Vincent [2022]。尽管这一领域有着迷人的应用,但它也引入了基于模型倾向于复制艺术家材料的一系列道德和法律问题 Heikkila [2022b]。如第3节所讨论的,LLM经常记忆它们所训练的数据,许多流行的数据集包含版权数据 Bandy 和 Vincent [2021],Biderman等人[2022]。这导致这些模型存在重大的版权侵犯风险。事实上,喜剧演员Sarah Silverman和其他人最近因通过ChatGPT和LLaMA模型侵犯版权而起诉OpenAI和Meta Davis [2023b]。 Karamolegkou等人[2023]对语言模型记忆1930年至2010年间畅销书籍的版权数据的程度进行了广泛测试。Karamolegkou等人[2023]测试了OPT、Pythia、LLaMA、Falcon、Claude和GPT-3.5,通过向开源模型提供书籍的前50个词元,以及向封闭源指令调整模型提供“<标题>的第一页是什么?”的提示。在图19中,我们可以看到模型和每本书记忆的最长公共子串(LCS)。与第3节讨论的结果一致,更大的模型更容易侵犯版权。与此同时,流行书籍的大部分开篇文本被这些流行模型记忆了。 尽管存在这些明显问题,许多主要公司和组织仍在推进用AI增强或替代创意工作。美国电影和电视制片人联盟(AMPTP)已经探索了使用诸如ChatGPT之类的模型编写剧本,这是2023年美国编剧工会(WGA)罢工的主要问题之一 Rose [2023a]。有些人认为这次罢工是即将到来的一系列关于AI使用的劳工战争中的第一场法律战 Broderick [2023]。 为了安全部署这些模型而不冒侵犯版权的风险,需要更多的解决方案和修改。已经证明,防止逐字记忆不是一个完美的解决方案 Ippolito等人[2023],而在版权保护的情况下,甚至防止近似记忆可能也是不够的。确定版权侵犯还需要衡量创新性和预期用途,这些都是难以量化的。在本节中,我们将讨论有关语言模型版权的当前法律文献,以及已经提出的任何技术解决方案。本节中的所有讨论都集中在美国版权法上。这些方法在其他司法管辖区可能仍然有用,但并不一定适用于不同的法律细微差别。

机器遗忘

正如前几节所讨论的,LLM的使用背后存在几个紧迫的隐私问题。虽然这些问题最初主要在学术环境中受到审查,但它们越来越引起公众的关注。关于机器学习模型泄露个人数据的流行案例,例如Heikkila [2022a]中所述,使许多人对他们的数据如何被处理感到不信任 Auxier等人[2019]。 鉴于公众日益增长的关切,立法和法规正在被引入以保护消费者数据。最有影响力的是欧盟的通用数据保护条例(GDPR)European Parliament and Council of the European Union [2016],它规定了企业如何处理个人数据。特别是,GDPR的一个元素被称为被遗忘权。这是每个消费者要求删除其个人数据的权利,也是加利福尼亚州消费者隐私法案(CCPA)State of California Department of Justice [2023]、拟议的纽约隐私法案(NYPA)State of New York [2023]和加拿大消费者隐私保护法案(CPPA)Government of Canada [2023]的规定。虽然在许多设置中,个人数据被存储在表格中,这将是一个简单的请求,但在机器学习模型和LLM的背景下,合规挑战显著更难 Zhang等人[2023b]。即使一个人被从数据库中删除,如果他们的数据之前用于训练模型,可以通过第4节讨论的隐私攻击等方法提取。监管机构对这一风险的认识正在增加,包括联邦贸易委员会最近与一家面部识别软件公司达成和解,除了用户的数据外,还必须删除任何从他们的数据派生的模型或算法 Commission [2021]。这为可能在立法和法规中越来越频繁出现的先例奠定了基础。 这为模型开发者创造了一个困难的局面。最简单的解决方案,称为留一法(LOO)重新训练,只需删除个人数据并重新训练整个模型。然而,现代LLM可能需要几周时间和数百万美元从头开始重新训练,使得这种解决方案在实践中不可行。根据Help Net Security的说法,2021年到2022年之间,消费者数据删除请求增加了74% Security [2023]。如果每次收到这些请求时都要求模型完全重新训练,那么它们将无法维护,尤其是考虑到已经实施或拟议的“被遗忘权”法律的地区规模。这导致了一个称为机器遗忘的新研究领域的出现。该领域旨在使用比重新训练它显著更少的计算资源从模型中删除个人数据及其影响。成功的遗忘算法应该产生与重新训练产生的模型大致无法区分的模型。在本节中,我们讨论机器遗忘的一般原则和语言模型空间中的当前发展。有关机器遗忘的更全面综述,请参阅Nguyen等人[2022]。 **结论 **

在本文中,我们涵盖了与使用大型语言模型(LLM)相关的一系列隐私风险。随着这些模型继续普及到公众意识和不同的应用领域,与其使用相关的明显隐私风险引起的关注将继续增长。这反映在即将出台的美国和欧盟AI法规将重点关注隐私风险这一事实上。与此同时,与LLM隐私相关的基本问题在很大程度上仍未解决。我们知道LLM可以记忆大量训练数据(第3节),但与针对判别性深度学习模型报告的攻击成功率相比,第4节讨论的现有攻击相对较弱。真正了解实际攻击可能对LLM构成的隐私风险将是确保个人数据不被意外暴露的关键,另一方面,政策制定者和AI开发者不会对可能在实践中不太可能发生的理论风险过度反应。像差分隐私这样的保护隐私的训练技术似乎是一种有效的方法,在微调过程中保护隐私的同时保持性能,但需要更多的研究来验证这些早期发现是否在不同领域都成立,并简化采用路径。在LLM预训练期间保护隐私基本上是未解决的问题。随着未来几年生成模型适用的版权法的确切方式逐渐明朗化,将出现一系列技术问题。在众多问题中:对于特定模型输出,我们如何验证它是否构成对训练数据子集的合理使用?如果我们想通过与特定输出相关的版税公平地补偿原始训练数据的创作者,我们如何进行这种归属?从LLM中遗忘数据的现有方法是启发式的 - 我们如何验证它们按预期工作?基于梯度下降的方法需要对模型参数进行白盒更新,这种更新越来越计算昂贵且受限,而基于上下文内学习的最新技术可能无法扩展到大量数据删除。需要更多研究来验证这些遗忘方法从隐私角度来看是否按预期工作,以及能否扩展到实际模型和删除工作负载。

成为VIP会员查看完整内容
40

相关内容

《大型语言模型自然语言生成评估》综述
专知会员服务
57+阅读 · 1月20日
【干货书】优化算法,232页pdf
专知会员服务
190+阅读 · 2022年9月8日
【干货书】优化算法,232页pdf
专知
21+阅读 · 2022年9月8日
【干货书】高维统计学,572页pdf
专知
12+阅读 · 2021年12月3日
【干货书】数据科学手册,456页pdf
专知
12+阅读 · 2021年4月28日
【深度强化学习教程】高质量PyTorch实现集锦
深度学习超参数搜索实用指南
云栖社区
28+阅读 · 2018年10月14日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
29+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Arxiv
131+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
325+阅读 · 2023年3月31日
Arxiv
53+阅读 · 2023年3月26日
Arxiv
111+阅读 · 2023年3月24日
Arxiv
15+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
29+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员