生成性AI大型语言模型(LLMs)的安全性:概述
具有生成性AI能力的大型语言模型(如ChatGPT)正面临加速采用和创新。生成性AI(GAI)的日益普及不可避免地引发了对这些模型相关风险和安全性的担忧。本文从计算机科学家的角度,对GAI-LLMs的最新AI安全研究趋势进行了详尽的综述,内容具体且技术性强。在本综述中,我们探讨了在LLMs作为生成性语言模型的背景和动机下所识别的危害和风险;我们的综述强调了在LLMs研究开发和应用中统一理论以应对不同安全挑战的必要性。 我们首先通过相关文献支持,对LLMs的工作原理进行了简明介绍。然后,我们讨论了早期研究指出的生成性模型的基本限制或缺乏理解(例如,随着LLMs参数数量的增加,性能和安全之间的权衡)。我们充分讨论了LLMs的对齐问题——深入探讨了各种方法、争议方法以及将LLMs与人类偏好对齐所面临的现有挑战。通过强调文献中的空白和可能的实施疏漏,我们旨在创建一个全面的分析,为解决LLMs中的AI安全问题提供见解,并鼓励开发对齐且安全的模型。 我们在综述的结尾讨论了LLMs在AI安全领域的未来方向,提供了对该关键领域正在进行的研究的见解。 1.** 引言大型语言模型(LLMs)常被誉为具有惊人生成能力的革命性生成性AI(GAI)模型,但它们也带来了许多AI安全挑战**。本文对现有研究文献中固有的LLMs安全风险进行了全面回顾。一个重要的挑战在于缺乏专门针对GAI-LLMs安全问题的综述论文,这些问题源于LLMs的技术构成,即数据预训练、模型架构和提示使用。目前的研究往往过于广泛,涉及X风险、AI伦理边界和政府政策变化等主题,这些虽重要,但并未直接聚焦于GAI-LLMs的功能性方面。在这项工作中,我们审视了先前文献中记录的生成模型的已知限制,并进一步识别和讨论由于未解决的技术问题而导致的新安全挑战。在确定了生成性AI和大型语言模型的安全挑战后,我们识别了一系列关键研究和主题:偏见和公平性、有害内容生成、虚假信息、隐私和安全问题、对抗攻击、知识产权侵权、伦理和人类偏好对齐以及大规模安全性。本文还回顾了后续GAI-LLMs安全研究的有前景途径,强调了在GAI-LLMs成为更强大代理时,LLM从业者和应用开发人员必须考虑的众多关键因素。 1.1. 文献检索策略本研究从计算机科学领域的AI和NLP方向的出版物中调查生成性AI和LLMs的安全性,包括ACL、NAACL、EACL、EMNLP、CoNLL、COLING、SIGIR、IJCAI、AAAI、ICML、ICDM、KDD和NeurIPS。我们使用AI安全、生成性AI和大型语言模型等相关关键词来搜索相关论文。找到的论文中出现的相关工作也包含在本综述的范围内,这可能包括技术公司关于AI安全的技术文章,例如Anthropic、Google DeepMind、Meta、Microsoft Research和OpenAI。AI安全和生成性AI研究领域广泛且复杂,来自学术界、工业界和政府的输入推动了这一领域的发展。在之前提到的核心文献基础上,审视额外的来源,以提供多样化的观点和见解。额外的来源增强了我们对这一领域的理解,强调了解决高级AI系统相关问题所需的协作努力。即将介绍的类别突出了计算机科学研究和政策制定正在进行的关键领域:
大型语言模型的风险和危害分类:Weidinger等(2024a)强调了旨在识别和分类LLMs安全风险的研究的重要性,特别是那些具有潜在社会技术影响的研究。Bommasani等(2022)、Shelby等(2023)和Weidinger等(2022)展示了这一类型的工作,提供了理解GAI-LLMs潜在危险的关键分类和框架。Liu等(2024d)对LLMs对齐风险进行了深入分析,按主题系统地组织它们并讨论了评估研究的最新进展。这些综述论文共同构成了关注识别和理解LLMs潜在不良影响的文献。Bird等(2023)检查了文本到图像生成模型的危害,例如生成内容中的偏见、生成不当内容和侵犯版权的问题。虽然本综述论文集中于大型语言模型的技术方面,但Shevlane等(2023)和Solaiman等(2023)深入探讨了其社会影响,包括潜在危害,基于Solaiman等(2019)的早期工作。Amodei等(2016)的基础性工作“AI安全中的具体问题”极大地影响了高级AI的讨论,而Google DeepMind不断发展的分类法Morris等(2023);Dragan等帮助识别了建立这一领域的研究。Weidinger等(2024a)强调,持续发展这些分类法对于促进研究人员、政策制定者和其他利益相关者之间的共同理解至关重要。
政府/政策制定会议:除了研究界的贡献,政府政策制定者在协作倡议中的参与也是重要的。这些协作生成了高质量的AI安全报告,例如WhiteHouse的报告。例如,Google DeepMind的评估方法Liang等(2022)和Anthropic的负责任的扩展政策Anthropic(2023)都引用了WhiteHouse。这些报告有助于全面理解围绕AI系统的复杂环境。正如预期的那样,这些会议的论文集中讨论了治理AI安全风险,如AI可信度、监控、公平性和隐私。
企业AI安全委员会和AI安全声明:OpenAI通过他们的博客发布了他们的AI安全方法,并不断更新和变化,例如OpenAI安全委员会OpenAI(2023c)、AI安全更新OpenAI(2023e)和OpenAI安全标准OpenAI(2023d)。Weidinger等(2024a)提到Google DeepMind的AI安全委员会,并引用了一些资源链接到他们的AI安全原则GoogleDeepMind(2023)。Anthropic对评估AI系统的贡献提供了一种更务实和专注的方法。Ganguli等(2023)强调了GAI-LLMs特定评估的固有复杂性,例如Hendrycks等(2021)的大型多任务评估(MMLU)基准和Parrish等(2022)的问答偏见基准(BBQ),以及Liang等(2023)的整体语言模型评估(HELM)和Srivastava等(2023)的BigBench。创建如此全面的评估框架的挑战表明了所需的大量努力。
AI安全评估:如HELM Liang等(2023)和BigBench Srivastava等(2023)等全面评估框架为基准测试LLMs提供了简化的API。这些框架结合了真理QA Lin等(2021)等开创性研究的基准,提供了不断演变的快照,以应对AI安全和代理的已建立风险和危害。通过在GitHub和HuggingFace等平台上托管开源代码库,研究人员促进了社区的持续贡献和更新。
1.2. 与其他综述的比较本综述论文通过系统地调查LLMs的安全问题,提供了一个高层次的分类框架,包括训练数据、模型训练、提示、对齐和扩展。通过将高级应用(如ChatGPT、Gemini等)的讨论分解为不同方面,我们可以在其技术范围内缩小安全问题并理解下游问题。我们的还原主义方法符合近期的努力,例如Dalrymple等(2024)的“保证安全的AI”,以综合和分类GAI-LLMs和未来代理相关的风险。例如,Gabriel等(2024)深入探讨了高级AI助手的伦理挑战,重点关注价值对齐、安全性和潜在的滥用。同样,Bommasani等(2022)对基础模型(包括LLMs)的机会和风险进行了广泛的讨论。Liu等(2024d)通过识别生成性AI系统中的已知风险并提出增强其可信度的框架,补充了这一讨论。虽然其他综述工作提供了重要见解,我们的综述通过系统地将这些识别的风险与LLM架构的特定方法(特别是上下文学习、提示和强化学习)相关联,从而使其与众不同。通过这种方法,我们可以识别安全问题的技术来源,并追踪其在系统中的传播,提供对如何以及在哪里最有效地进行干预的更详细理解。我们还结合了LLMs评估的最新发展,如Weidinger等(2024a)所展示的。他们的工作分享了开发Google Gemini模型的经验教训,并深入了解了DeepMind内部的治理结构,提供了关于在实际AI系统中实施安全措施的实际挑战的关键视角。为了进一步区分我们的综述,我们包括了Zhao等(2023)的最新工作分析,他们对LLMs的评估方法提供了全面概述。他们的评估指标和数据集分类为我们的基于组件的分析提供了有价值的背景,有助于弥合理论安全问题和实际评估方法之间的差距。通过综合这些不同的观点并围绕基于组件的框架进行组织,我们的综述为该领域做出了独特贡献。它不仅巩固了关于LLM安全性的现有知识,还提供了一个结构化的方法来识别和解决其源头的安全问题。这种方法对于旨在提高基于LLM的系统在各种应用和领域中的鲁棒性和可靠性的研究人员和从业者来说,特别有价值。 1.3. 综述的主要贡献在这项综述中,我们的主要贡献总结如下:
我们通过一个新的基于组件的框架,系统地调查了LLMs的安全问题,将关注点分类为训练数据、模型训练、提示、对齐和扩展。 * 我们将识别的风险与特定的LLM方法(特别是上下文学习、提示和强化学习)相关联,从而更精确地理解安全问题的技术来源。 * 我们结合了对LLM提示和对齐技术与人类偏好的综合分析,弥合了理论安全问题和实际评估方法之间的差距。 * 我们将模型对齐的讨论置于广泛的AI安全文献中,探索了关于语言模型的不同哲学观点,以及它们与AI代理安全的独特对待方式。根据我们的研究,我们区分了强化学习策略,无论代理是否设计为语言助手,都可以在任何相互设置中嵌入与人类相关的安全措施。 * 通过这种还原主义方法,我们汇集了当前文献中的各种观点,提出了一个独特且有组织的框架,以定位和解决LLM安全问题。这种方法为识别最有效的干预点提供了关键见解,为专注于提高LLM基于系统安全性的研究人员和从业者提供了重要视角。
1.4. 综述的提纲在这项工作中,第2节提供了LLMs的简要背景。本文随后提出了一个全面的安全问题和挑战分类法,分为五个主要类别,如表1所示。第3节的数据安全解决了有害性、偏见、数据隐私和版权侵犯等问题。第4节的模型安全探讨了虚假信息、评估问题、可解释性挑战和推理隐私问题。第5节的提示安全或使用安全重点关注潜在攻击,如提示注入和越狱,以及防御策略。第6节的对齐或伦理安全深入探讨了对齐的哲学方面、中立对齐方法、大型语言模型的价值对齐以及对齐LLMs与人类价值和伦理原则的方法。最后,第7节的规模安全性研究了可扩展的监督机制、涌现能力、知识蒸馏技术以及大规模模型的灾难性遗忘风险。这种结构化的方法提供了GAI-LLMs研究中安全领域的全面概述。我们在第8节中提出了一些未来值得研究的趋势,并在第9节对本次综述进行了总结。