158页！天大等最新《大型语言模型安全：全面综述》

大型语言模型安全：全面综述

大型语言模型（LLMs）的快速发展和部署已开启了人工智能的新前沿，标志着自然语言理解和生成能力的空前进展。然而，这些模型在关键应用中的日益整合也带来了重大的安全隐患，亟需对其潜在风险及相关的缓解策略进行深入审视。本综述提供了关于LLM安全现状的全面概述，涵盖了四大主要类别：价值不一致、对抗攻击的鲁棒性、滥用和自主AI风险。除了对这四个方面的缓解方法和评估资源进行全面回顾外，我们还进一步探讨了与LLM安全相关的四个主题：LLM代理的安全性影响、可解释性在增强LLM安全性中的作用、AI公司和研究机构为LLM安全提出并遵循的技术路线图，以及针对LLM安全的AI治理，讨论了国际合作、政策提案和未来的监管方向。我们的研究结果强调了对LLM安全采取积极主动、多层面的措施的必要性，强调了技术解决方案、伦理考量以及健全治理框架的整合。本综述旨在为学术研究人员、行业从业者和政策制定者提供基础性资源，提供有关LLM安全融入社会的挑战与机遇的洞察。最终，本文旨在为LLM的安全与有益发展做出贡献，与利用AI促进社会进步和福祉的总体目标保持一致。相关论文的精选列表已公开发布于GitHub仓库。 https://arxiv.org/abs/2412.17686

1 引言

1950年，艾伦·图灵提出了一个问题：“机器能思考吗？”（Turing, 1950）。当时，普遍的回答是“不能”。在随后的几十年里，构建一个能够类人思考的人工智能（AI）系统成为了人工智能研究中的长期追求，许多努力都致力于实现这一愿景（Minsky, 1961；Brooks, 1991；McCarthy 等, 2006；LeCun 等, 2015；Lake 等, 2016）。这些持续的努力推动了人工智能从理论探索到实际应用的发展。人工智能的早期阶段专注于符号推理和基于规则的系统，以复制人类智能（McCarthy, 1960），例如基于规则的机器翻译和专家系统（Hayes-Roth, 1983）。然而，符号人工智能过度依赖人工设计的规则，导致其难以扩展到新的、动态的或复杂的环境中。在20世纪80年代和90年代，随着数据的增加和计算能力的提升，人工智能研究开始转向数据驱动的方法，使机器能够自动从数据中发现特征，以完成特定任务。这一阶段见证了机器学习的复兴，并在人工神经网络、支持向量机和随机森林等领域取得了显著进展。尽管这些机器学习方法在特定任务上取得了令人瞩目的表现，但它们往往依赖于特征工程，且在处理复杂的现实问题时面临困难。自2010年代以来，神经网络架构、计算资源和大量训练数据的显著进展推动了深度学习的复兴，深度学习通常被称为具有更深层结构的人工神经网络，标志着人工智能的一个重要里程碑，能够在图像分类（Krizhevsky 等, 2012）、机器翻译（Sutskever 等, 2014）和蛋白质结构预测（Jumper 等, 2021）等任务中实现超过人类水平的表现。然而，早期的深度学习模型通常是在任务特定的数据上进行训练，这使得它们的能力局限于狭窄的范围。直到大型语言模型（LLMs）的出现，这一局限性才有所缓解。近年来，大型语言模型的发展标志着“让机器思考”目标的重大进展，因为这些模型在自然语言理解和生成方面表现出卓越的能力，从而显著降低了人类与人工智能之间的沟通障碍（Brown 等, 2020；OpenAI, 2023a；Guo 等, 2023b；Dubey 等, 2024；Yang 等, 2024a；DeepSeek-AI 等, 2024；Sun 等, 2024b）。与早期的深度学习模型相比，LLMs包含了数量级更多的参数。此外，它们的训练数据通常涵盖了多个任务、领域、语言和模态，这进一步扩展了它们的能力。尽管LLMs已经展示出比任何先前的人工智能系统更为人类化的智能（Bubeck 等, 2023；Shi 等, 2024b），但它们的性能仍在不断提升，且没有减缓的迹象。此外，由于其广泛的能力和卓越的性能，LLMs已经被部署到众多现实世界应用中。然而，LLMs在现实场景中的持续改进和广泛部署引发了关于其安全性的重大担忧（Brundage 等, 2018；Weidinger 等, 2021；Bommasani 等, 2021）。关于智能机器风险的担忧可追溯到1950年代（Wiener, 1950），主要关注人工智能的社会和伦理影响。然而，与早期主要因缺乏高能力AI系统而多为推测性和理论性的担忧不同，LLMs的广泛能力带来了具体的风险。近期的研究表明，LLMs可能生成不当内容，如冒犯性或仇恨性言论（Gehman 等, 2020；Deng 等, 2022）。此外，LLMs还可能表现出刻板印象和社会偏见（Gallegos 等, 2023；Liang 等, 2021；Huang & Xiong, 2024a；Salecha 等, 2024），危害个人隐私（Li 等, 2023a；Staab 等, 2024），或违反伦理和道德标准（Weidinger 等, 2021；Abdulhai 等, 2023）。更重要的是，它们可能被恶意用户利用，威胁国家安全和公共安全，如设计武器或操控舆论（Soice 等, 2023；Buchanan 等, 2021）。值得注意的是，随着LLMs在执行任务方面越来越娴熟，出现了一种趋势，表明这些模型可能会发展出自我复制和自我保护的能力，甚至表现出对权力和资源的渴望（Gabor 等, 2022；Perez 等, 2023）。这种潜在的进化可能会对人类社会产生无法预见且可能有害的后果。令人震惊的是，仅仅通过扩大模型规模或增加训练数据和计算资源，无法缓解这些挑战（Wei 等, 2023a）。鉴于此，政府、媒体和人工智能社区已达成共识，认为关注LLM安全不仅至关重要，而且迫在眉睫。例如，关于在医疗和法律等敏感领域部署LLMs的风险已经引发了广泛关注，在这些领域，即便是微小的错误输出也可能带来重大后果。因此，强烈强调需要人工监督和对LLM输出进行仔细评估（Sterz 等, 2024）。此外，许多领先的专家认为，必须采取主动措施以建立信任并防止滥用。他们建议，如果没有适当的安全措施，LLMs可能会被用来制造虚假信息或被操控以谋取经济或政治利益（Mozes 等, 2023；Ferdaus 等, 2024）。LLMs的快速进化使得解决这些风险成为优先事项，以确保能够安全地将强大AI系统融入社会。鉴于对LLM安全技术、策略及国家/全球政策的迫切需求，我们提供了关于LLM安全的全面概述。我们从整体角度审视LLM安全，包括安全技术、资源、评估、路线图、策略、政策等，并将其组织为两个维度：LLM安全的基本领域和与LLM安全相关的领域。第一个维度涵盖了LLMs的开发和部署所引发的主要风险领域/类别。我们的分析强调了对LLMs在各种场景中相关风险的评估，这与近期多个AI安全报告（例如《先进AI安全国际科学报告》（Bengio 等, 2024a））和安全机构（例如AI安全研究院（AISI））（AISI, 2024）所采取的观点一致。这包括对价值不一致、对抗攻击的鲁棒性、故意和无意滥用的场景，以及独立或自主在复杂环境中运作的高级AI系统所带来的潜在风险进行深入的审查。通过对这些关键领域的系统性回顾和分析，我们旨在为研究人员和政策制定者提供关于当前LLM安全研究现状的全面视角，识别现有的研究空白，并提出未来探索的潜在方向。在与LLM安全相关的领域方面，我们研究了由LLM驱动的代理所带来的重大风险，尽管它们在解决问题和任务规划方面表现出卓越的能力，但仍然对人类和社会构成威胁。此外，我们还探讨了领先AI公司和机构在实践中采用的LLM安全技术路线图和策略。我们还深入探讨了可解释性方法，通过分析LLM的内部机制来全面研究和缓解其不安全行为。最后，我们扩展讨论，涵盖了国家治理和全球合作，探讨了AI治理的多维度，包括国际合作、技术监管、伦理考量和合规框架。我们的目标是加深对AI治理所涉及的挑战和机遇的理解，最终推动技术发展造福人类。我们预期，本综述将成为研究人员、政策制定者和行业从业者的重要参考，帮助更好地理解当前LLMs在安全方面的状态和挑战。通过批判性地分析现有研究和政策实践的不足，我们希望能激发未来在LLM安全领域的研究、开发和政策制定工作。

1.1 LLM安全定义

在本综述中，我们将LLM安全与安全区分开来，尽管LLMs可能会被用于辅助网络安全攻击或其他安全任务。我们将LLM安全定义为负责任的LLM开发、部署和使用，以避免造成无意或有意的伤害。这个定义包括确保LLMs不会产生有害输出，例如偏见、冒犯性或不道德的内容，并保障它们免受在恶意活动中的滥用，如数据操控或对抗性攻击。与此相对，LLM安全关注的是保护LLM系统免受外部威胁，如黑客攻击、拒绝服务攻击或数据泄露。总之，LLM安全更侧重于LLM的伦理和负责任使用，而LLM安全则关注防御LLM系统免受技术性威胁（Ayyamperumal & Ge, 2024）。

2 分类学

本综述旨在系统地组织与大型语言模型（LLM）相关的各种安全问题、风险和策略。通过识别和分类这些风险，我们提供了一个结构化的分类体系，以便更好地理解LLM开发和部署所带来的广泛挑战。该分类体系如图1所示，将LLM安全的当前格局结构化为两个维度：LLM安全的基本领域（涵盖LLM的关键风险领域），以及与LLM安全相关的领域（识别与LLM安全密切相关的核心领域）。

**2.1 LLM安全的基本领域

我们在第一个维度中识别了LLM的四个关键风险领域：价值不一致、对攻击的鲁棒性、滥用以及自主AI风险，如图1所示。对于每个关键风险领域，我们进一步识别了子领域，揭示了LLM安全的多维挑战及其评估和缓解策略。

价值不一致（第3节）：本节深入探讨了源于LLM与人类意图、价值观和期望之间不一致所带来的多维安全问题。它包括四个核心子领域：社会偏见、隐私、毒性、伦理与道德。通过系统地分析这些问题的影响、起源、评估方法和缓解策略，本节为理解这些子领域所带来的关键问题提供了全面的视角。
对攻击的鲁棒性（第4节）：该风险领域探讨了LLM对对抗性攻击的鲁棒性，重点关注越狱技术和红队测试方法，研究绕过安全机制的各种策略，以及用于识别LLM漏洞的手动或自动对抗性测试。此外，还讨论了应对这些威胁的防御策略，包括设计外部保障措施以保护LLM免受恶意输入，以及修改LLM自身以增强其抵抗力的内部保护策略。这些策略对于提高LLM的安全性和鲁棒性至关重要，尽管在平衡效果和模型复杂性之间仍存在挑战。
滥用（第5节）：本风险领域重点审查了当LLM被恶意行为者利用时可能带来的严重威胁，揭示了LLM在不同社会层面和公共安全方面的多个风险。一方面，LLM可能被用于各种非法目的，包括促进网络攻击和制造生物、化学以及核武器，威胁人类安全。另一方面，LLM生成的错误或误导性文本可能被用来在社交媒体和新闻平台上传播有害的虚假信息，从而对公众舆论、政治过程和社会信任产生重大影响。此外，最先进的LLM生成逼真音频和视频内容的能力加剧了深度伪造技术的伦理、社会和安全担忧，这种技术历史上曾对社会产生不利影响。
自主AI风险（第6节）：除了上述三个关键风险领域外，我们还进一步探讨了关于LLM发展过程中自主AI相关的日益增长的担忧。随着LLM朝着类人能力发展，关于自主AI的社会和伦理风险的担忧再次浮现，尤其是在高级LLM部署在线上或自主或半自主环境中的风险。这些风险包括但不限于追求多个趋同的工具性目标（例如，自我保护、寻求权力）（Benson-Tilsen & Soares, 2016）、欺骗和情境意识。理论上对这些风险进行形式化/验证以及在经验上检测和评估它们，构成了前沿AI/LLM安全的重大挑战。

**2.2 与LLM安全相关的领域

当LLM驱动的代理获得使用工具、执行任务和与环境互动的自主权时，它们能够展示出高效且自动化的任务解决能力。然而，这种自主性也带来了作出不可预测或无法控制的决策的风险。除了LLM的外部方面（例如，LLM驱动的代理与环境之间的交互）外，安全风险的普遍性和严重性促使人们开始调查LLM的内部机制。这些努力旨在解决与LLM能力和安全性相关的透明性和可解释性问题，这些问题源于LLM的黑箱特性。在安全部署和应用的角度下，许多AI/LLM公司和研究机构分配了大量资源，实施各种安全技术以保障部署的LLM免受不安全行为的影响，例如生成偏见、毒性或不道德的回应。除了技术措施，随着LLM逐渐渗透到各个行业，建立一个全面且稳健的高层治理框架已成为当务之急。这样的框架不仅应确保LLM的开发和部署符合全球公认的伦理标准，还应促进国际合作和监管协调，以实现全球AI技术的共同利益和共享繁荣。鉴于这些考虑，我们进一步讨论了与LLM安全相关的四个重要领域：代理安全、LLM安全的可解释性、实践中的LLM安全技术路线图/策略以及治理，这些领域补充了LLM的关键风险领域。

代理安全（第7节）：本节探讨了与LLM驱动的两类代理相关的风险：语言代理和具身代理。虽然这些代理在各个领域提供了巨大的自动化和创新潜力，但它们也带来了一系列问题，包括潜在的恶意使用、与人类价值观的不一致、隐私侵犯和不可预测行为。本节详细讨论了这些风险，探讨了它们对社会、经济和个人隐私的影响。此外，还概述了旨在提高LLM驱动代理安全性和可靠性的缓解策略和资源。随着LLM的不断发展，理解并应对这些风险对确保AI技术的负责任开发和部署至关重要。
LLM安全的可解释性（第8节）：本节强调了可解释性在增强LLM在关键领域使用时的安全性中的作用。它强调了可解释性如何帮助使LLM的决策过程透明，从而更好地进行评估和控制。主要好处包括提升性能、解决偏见问题和确保安全输出。本节介绍了LLM安全可解释性的分类体系，涵盖了理解模型能力、安全审计和将LLM与人类价值观对齐等内容。此外，还讨论了可解释性研究的风险，包括技术的双重使用、对抗性攻击、误解或过度信任解释以及可解释性可能加剧不可控制风险的潜力。
实践中的LLM安全技术路线图/策略（第9节）：本节阐述了各种领先LLM安全措施和策略的现状。它详细阐述并比较了OpenAI、Anthropic、百度、Google DeepMind、微软、01.AI、百川、Tiger Research、阿里巴巴云、DeepSeek-AI、Mistral AI、Meta、上海AI实验室和Zhipu AI等主要行业玩家实施的安全路线图，以确保LLM在实际应用中的可靠性和安全性。此外，还讨论了某些研究机构的贡献，尽管它们没有发布LLM，但它们积极参与AI安全研究和开发。
治理（第10节）：本节深入探讨了AI治理的多维领域，探索了共同塑造AI发展和部署未来的提案、政策和愿景。随着AI的快速发展并渗透到社会的各个方面，对全面有效的治理框架的需求变得愈加迫切。通过分析当前政策、比较不同的治理方法，并考虑长期愿景，本节旨在提供对AI技术治理挑战和机遇的深入理解，从国际合作倡议到技术监督机制，从伦理考量到合规挑战，全面审视AI/LLM监管的复杂格局。