先进人工智能的多智能体风险

先进人工智能的多智能体风险

先进人工智能代理的快速发展以及这些代理的多个实例即将部署，将催生前所未有复杂性的多智能体系统。这些系统带来了新的、尚未充分探索的风险。在本报告中，我们通过识别三种主要的失败模式（协调失误、冲突和合谋），基于代理的激励机制，提供了这些风险的结构化分类，同时指出七个关键的风险因素（信息不对称、网络效应、选择压力、破坏性动态、承诺问题、涌现代理和多智能体安全）作为这些风险的根源。我们突出介绍了每种风险的几个重要实例，并提出了有前景的缓解方向。通过结合一系列现实世界的例子和实验证据，我们阐明了多智能体系统带来的独特挑战及其对先进人工智能的安全、治理和伦理的影响。

日益先进的人工智能的普及不仅带来了广泛的利益，也伴随着新的风险（Bengio et al., 2024；Chan et al., 2023）。如今，人工智能系统已经开始自主相互互动，并根据情况调整其行为，形成了多智能体系统。这一变化得益于可以通过多种方式（包括文本、图像和音频）互动的复杂模型的广泛应用，以及自主适应代理所带来的竞争优势（Anthropic, 2024a；Google DeepMind, 2024；OpenAI, 2025）。虽然目前仍然相对罕见，但先进的人工智能代理群体已经承担了从交易百万美元资产（AmplifyETFs, 2025；Ferreira et al., 2021；Sun et al., 2023a）到向指挥官推荐战斗行动（Black et al., 2024；Manson, 2024；Palantir, 2025）等各类任务。未来不久，人工智能应用不仅限于经济和军事领域，还可能扩展到能源管理、交通网络及其他关键基础设施（Camacho et al., 2024；Mayorkas, 2024）。大量人工智能代理也将在更加常见的社交场景中出现，作为智能个人助理或代表，能够承担越来越复杂和重要的任务。尽管这些先进的多智能体系统为可扩展的自动化和更广泛的社会利益带来了新机遇，但它们也带来了独特的风险，这些风险与单一代理或较不先进技术所带来的风险不同，且在系统性地被低估和缺乏充分研究。这种忽视部分源于当前的多智能体系统仍然较为稀少（且现有系统往往受到高度控制，如自动化仓库中的应用），也部分因为即便是单一代理也存在许多尚未解决的问题（Amodei et al., 2016；Anwar et al., 2024；Hendrycks et al., 2021）。然而，考虑到当前的进展速度和应用推广，我们迫切需要评估（并准备缓解）来自先进人工智能的多智能体风险。更具体地说，本报告提供了以下分类的建议：

评估：现有的人工智能系统多是在孤立环境中开发和测试的，尽管它们很快将会相互互动。为了理解多智能体风险的发生概率和严重性，我们需要新的方法来检测这些风险可能何时何地出现，例如：评估模型的合作能力、偏差和脆弱性；在多智能体环境下测试新的或改进的危险能力（如操控、合谋或绕过安全措施）；进行更开放的模拟以研究动态、选择压力和涌现行为；以及研究这些测试和模拟与实际部署的匹配程度。
缓解：评估只是缓解多智能体风险的第一步，这需要新的技术进展。尽管我们对这些风险的理解仍在增长，但我们现在可以开始探索一些有前景的方向，例如：将同行激励方法扩展到最先进的模型；开发用于可信代理交互的安全协议；利用信息设计和人工智能代理的透明性潜力；以及稳定动态多智能体网络，并确保其在面对对手时的鲁棒性。
协作：多智能体风险本质上涉及许多不同的行为者和利益相关者，通常是在复杂和动态的环境中。通过借鉴其他领域的见解，我们可以在这些跨学科问题上取得更大的进展，例如：更好地理解复杂适应系统和进化环境中不良结果的原因；确定没有单一人工智能系统造成的伤害的道德责任和法律责任；借鉴现有的多智能体系统监管经验，尤其是在高风险领域（如金融市场）；以及识别多智能体系统的安全漏洞和可能的安全保障。

为了支持这些建议，我们提出了一种新的风险分类法，专门针对在多智能体环境中表现为新的、更加具有挑战性或本质上不同的人工智能风险，并提供了初步的缓解方案评估。我们识别了三种高层次的失败模式，这些模式取决于代理目标的性质和系统预期行为：协调失误、冲突和合谋。然后，我们描述了七个可能导致这些失败的关键风险因素：信息不对称、网络效应、选择压力、破坏性动态、承诺与信任、涌现代理和多智能体安全。针对每个问题，我们提供了定义、关键实例、案例研究和未来工作的有前景方向。最后，我们讨论了这些问题对现有人工智能安全、治理和伦理工作的影响。 1. 引言

随着日益先进的人工智能的普及，不仅带来了广泛的好处，也带来了新的风险（Bengio et al., 2024；Chan et al., 2023）。未来，人工智能系统将普遍互动，并根据彼此的行为作出调整，从而形成多智能体系统。这个趋势将由几个因素驱动。首先，近期的技术进展和公众关注将继续推动人工智能的广泛应用，尤其是在高风险领域，如金融交易（AmplifyETFs, 2025；Ferreira et al., 2021；Sun et al., 2023a）和军事战略（Black et al., 2024；Manson, 2024；Palantir, 2025）。第二，能够自主行动并在部署时适应的人工智能系统相比于非适应性系统或需要人工干预的系统，将具有竞争优势。第三，随着此类代理的广泛部署，它们将越来越多地相互互动。这些先进的多智能体系统的出现带来了许多至今系统性未被重视和研究的风险。部分原因是此类系统的部署目前较为罕见，或仅限于高度控制的环境（如自动化仓库），这些环境并未遭遇最严重的风险。另一部分原因是，即使是确保单一先进人工智能系统的安全和道德行为的问题，也远未解决（Amodei et al., 2016；Anwar et al., 2024；Hendrycks et al., 2021），而多智能体环境则更为复杂。事实上，许多多智能体风险本质上是社会技术性问题，需要多个利益相关者和跨学科研究者的关注（Curtis et al., 2024；Lazar & Nelson, 2023）。值得注意的是，这些风险与单一代理或较不先进技术所带来的风险不同，且并非所有解决单一代理问题的措施都能解决多智能体系统中的问题。例如：如果不同的代理目标不同，人工智能代理的对齐不足以防止冲突（Critch & Krueger, 2020；Dafoe et al., 2020；Jagadeesan et al., 2023a；Manheim, 2019；Sourbut et al., 2024）；单独可接受的错误可能会在复杂的、动态的代理网络中累积（Buldyrev et al., 2010；Kirilenko et al., 2017；Lee & Tiwari, 2024；Maas, 2018；Sanders et al., 2018）；代理群体可能会通过结合或合谋，发展出任何单个代理无法归因的危险能力或目标（Calvano et al., 2020；Drexler, 2022；Jones et al., 2024；Mogul, 2006；Motwani et al., 2024）。先进的人工智能还引入了与先前几代人工智能或其他技术根本不同的现象，需要采用新的方法来缓解这些风险（Bengio et al., 2024）。考虑到当前进展的速度，我们迫切需要评估（并准备缓解）来自先进人工智能的多智能体风险。在本报告中，我们迈出了第一步，提供了一个风险分类法，涵盖那些在多智能体环境中出现、更加具有挑战性或本质上不同的风险（见表1）。我们识别了三种关键的高层次失败模式（第2节），以及七个可能导致这些失败的关键风险因素（第3节），然后讨论了这些风险对人工智能安全、治理和伦理的影响（第4节）。在报告中，我们通过具体的案例研究、前人的研究成果和新实验来说明这些风险（见表3）。

1.1 概述

我们首先基于代理目标的性质和系统预期行为，识别了多智能体系统中的不同失败模式。在大多数多智能体系统中，我们关心的是人工智能代理是否能够合作以实现各自的目标或部署它们的组织的目标。在这种情况下，我们将失败分类为协调失误（第2.1节），即当代理有相同目标时未能合作，和冲突（第2.2节），即目标不同的代理未能合作。第三种也是最后一种失败模式——合谋（第2.3节）——则可能在竞争性环境中出现，我们不希望代理进行合作（例如在市场中）。接下来，我们引入了一些风险因素，这些因素可以导致上述失败模式的出现，并且在很大程度上独立于代理的具体激励。例如，信息不对称可能导致目标相同的代理之间的协调失误，或者导致目标不同的代理之间的冲突。这些因素并不特定于人工智能系统，但人工智能系统与其他类型智能代理（如人类或企业）之间的差异，导致了不同的风险实例和潜在的解决方案。最后，请注意，以下风险因素并非穷尽的，且可能不是彼此独立的：

信息不对称（第3.1节）：私人信息可能导致协调失误、欺骗和冲突；
网络效应（第3.2节）：代理在网络中的属性或连接模式的微小变化可能会导致整个群体行为的剧烈变化；
选择压力（第3.3节）：训练和选择过程中的一些因素可能会导致代理行为的不可取表现；
破坏性动态（第3.4节）：系统之间的适应性相互作用可能导致危险的反馈循环和不可预测性；
承诺和信任（第3.5节）：在人工智能代理和人类代理的互动中，难以形成可信的承诺、信任或声誉，这可能会阻碍共同利益；
涌现代理（第3.6节）：由多个无害的独立系统或行为组合而成的系统，可能会出现新的、质变的目标或能力；
多智能体安全（第3.7节）：多智能体系统带来了新的安全威胁和漏洞。

最后，我们将讨论这些风险在人工智能安全（第4.1节）、人工智能治理（第4.2节）和人工智能伦理（第4.3节）方面的影响。例如，大多数人工智能安全研究（第4.1节）关注的是单一系统的稳健性、可解释性或对齐等问题（Amodei et al., 2016；Anwar et al., 2024；Hendrycks et al., 2021），尽管越来越多的关于构建更安全人工智能系统的建议实际上是隐含多智能体的（例如，Drexler, 2019；Greenblatt et al., 2023；Irving et al., 2018；Perez et al., 2022a；Schwettmann et al., 2023）。人工智能治理（第4.2节）方面的努力通常涉及多利益相关者环境，这为治理工具与技术进展的结合提供了希望，从而缓解多智能体风险（Reuel et al., 2024a；Trager et al., 2023）。同时，多智能体交互自然引发了人工智能伦理（第4.3节）中的公平性、集体责任和社会利益等问题（Friedenberg & Halpern, 2019；Gabriel et al., 2024；Zhang & Shah, 2014a）。

1.2 范围

关于人工智能系统所带来的风险的担忧，涵盖了从偏见的招聘决策（Raghavan et al., 2020）到生存灾难（Bostrom, 2014）等广泛的议题，相关文献丰富。在简要回顾最相关的研究之前，我们有必要先澄清本报告的范围，具体如下：

风险和失败模式：我们旨在识别可能引发风险的具体机制，而不仅仅是这些风险所呈现的开放研究问题。
多个代理：如果某种风险在单一人工智能系统中也可能以类似方式出现，我们认为它不在本报告的范围之内（但这并不降低其重要性）。
先进人工智能：尽管我们识别的许多风险同样适用于更简单的系统，但它们在越来越具自主性和强大的人工智能代理中表现得最为严重，因此我们的主要关注点是这一方面。
现实世界的例子：在可能的情况下，我们确保将这些风险与现实世界的事件、先前的研究或新的实验相联系，而不仅仅是进行假设性的推测（见表3）。
技术视角：由于作者的专业背景（并且为了使报告范围更具可管理性），我们主要从技术角度讨论这些风险，尽管我们认识到这一视角的局限性。
具体的前进路径：在可能的情况下，我们力求明确提出相对狭窄的未来研究建议，希望这能使其他人更容易参与进来。

无需多言，来自先进人工智能的多智能体风险并不是人工智能所带来的唯一风险，本报告所采取的视角也不是理解这些风险的唯一方法。此外，我们几乎完全忽略了先进多智能体系统的潜在好处：更大程度的去中心化和人工智能技术的民主化；协作与协调的帮助；更强的鲁棒性、灵活性和效率；解决单一代理设置中的对齐和安全问题的新方法；或许最重要的是，人工智能带来更广泛、更均衡的利益。我们希望本报告能够补充早期以及相关研究，帮助理解这些挑战和机遇。

成为VIP会员查看完整内容