先进人工智能的多智能体风险
先进人工智能代理的快速发展以及这些代理的多个实例即将部署,将催生前所未有复杂性的多智能体系统。这些系统带来了新的、尚未充分探索的风险。在本报告中,我们通过识别三种主要的失败模式(协调失误、冲突和合谋),基于代理的激励机制,提供了这些风险的结构化分类,同时指出七个关键的风险因素(信息不对称、网络效应、选择压力、破坏性动态、承诺问题、涌现代理和多智能体安全)作为这些风险的根源。我们突出介绍了每种风险的几个重要实例,并提出了有前景的缓解方向。通过结合一系列现实世界的例子和实验证据,我们阐明了多智能体系统带来的独特挑战及其对先进人工智能的安全、治理和伦理的影响。
日益先进的人工智能的普及不仅带来了广泛的利益,也伴随着新的风险(Bengio et al., 2024;Chan et al., 2023)。如今,人工智能系统已经开始自主相互互动,并根据情况调整其行为,形成了多智能体系统。这一变化得益于可以通过多种方式(包括文本、图像和音频)互动的复杂模型的广泛应用,以及自主适应代理所带来的竞争优势(Anthropic, 2024a;Google DeepMind, 2024;OpenAI, 2025)。 虽然目前仍然相对罕见,但先进的人工智能代理群体已经承担了从交易百万美元资产(AmplifyETFs, 2025;Ferreira et al., 2021;Sun et al., 2023a)到向指挥官推荐战斗行动(Black et al., 2024;Manson, 2024;Palantir, 2025)等各类任务。未来不久,人工智能应用不仅限于经济和军事领域,还可能扩展到能源管理、交通网络及其他关键基础设施(Camacho et al., 2024;Mayorkas, 2024)。大量人工智能代理也将在更加常见的社交场景中出现,作为智能个人助理或代表,能够承担越来越复杂和重要的任务。 尽管这些先进的多智能体系统为可扩展的自动化和更广泛的社会利益带来了新机遇,但它们也带来了独特的风险,这些风险与单一代理或较不先进技术所带来的风险不同,且在系统性地被低估和缺乏充分研究。这种忽视部分源于当前的多智能体系统仍然较为稀少(且现有系统往往受到高度控制,如自动化仓库中的应用),也部分因为即便是单一代理也存在许多尚未解决的问题(Amodei et al., 2016;Anwar et al., 2024;Hendrycks et al., 2021)。然而,考虑到当前的进展速度和应用推广,我们迫切需要评估(并准备缓解)来自先进人工智能的多智能体风险。更具体地说,本报告提供了以下分类的建议:
为了支持这些建议,我们提出了一种新的风险分类法,专门针对在多智能体环境中表现为新的、更加具有挑战性或本质上不同的人工智能风险,并提供了初步的缓解方案评估。我们识别了三种高层次的失败模式,这些模式取决于代理目标的性质和系统预期行为:协调失误、冲突和合谋。然后,我们描述了七个可能导致这些失败的关键风险因素:信息不对称、网络效应、选择压力、破坏性动态、承诺与信任、涌现代理和多智能体安全。针对每个问题,我们提供了定义、关键实例、案例研究和未来工作的有前景方向。最后,我们讨论了这些问题对现有人工智能安全、治理和伦理工作的影响。 1. 引言
随着日益先进的人工智能的普及,不仅带来了广泛的好处,也带来了新的风险(Bengio et al., 2024;Chan et al., 2023)。未来,人工智能系统将普遍互动,并根据彼此的行为作出调整,从而形成多智能体系统。这个趋势将由几个因素驱动。首先,近期的技术进展和公众关注将继续推动人工智能的广泛应用,尤其是在高风险领域,如金融交易(AmplifyETFs, 2025;Ferreira et al., 2021;Sun et al., 2023a)和军事战略(Black et al., 2024;Manson, 2024;Palantir, 2025)。第二,能够自主行动并在部署时适应的人工智能系统相比于非适应性系统或需要人工干预的系统,将具有竞争优势。第三,随着此类代理的广泛部署,它们将越来越多地相互互动。 这些先进的多智能体系统的出现带来了许多至今系统性未被重视和研究的风险。部分原因是此类系统的部署目前较为罕见,或仅限于高度控制的环境(如自动化仓库),这些环境并未遭遇最严重的风险。另一部分原因是,即使是确保单一先进人工智能系统的安全和道德行为的问题,也远未解决(Amodei et al., 2016;Anwar et al., 2024;Hendrycks et al., 2021),而多智能体环境则更为复杂。事实上,许多多智能体风险本质上是社会技术性问题,需要多个利益相关者和跨学科研究者的关注(Curtis et al., 2024;Lazar & Nelson, 2023)。值得注意的是,这些风险与单一代理或较不先进技术所带来的风险不同,且并非所有解决单一代理问题的措施都能解决多智能体系统中的问题。例如:如果不同的代理目标不同,人工智能代理的对齐不足以防止冲突(Critch & Krueger, 2020;Dafoe et al., 2020;Jagadeesan et al., 2023a;Manheim, 2019;Sourbut et al., 2024);单独可接受的错误可能会在复杂的、动态的代理网络中累积(Buldyrev et al., 2010;Kirilenko et al., 2017;Lee & Tiwari, 2024;Maas, 2018;Sanders et al., 2018);代理群体可能会通过结合或合谋,发展出任何单个代理无法归因的危险能力或目标(Calvano et al., 2020;Drexler, 2022;Jones et al., 2024;Mogul, 2006;Motwani et al., 2024)。先进的人工智能还引入了与先前几代人工智能或其他技术根本不同的现象,需要采用新的方法来缓解这些风险(Bengio et al., 2024)。 考虑到当前进展的速度,我们迫切需要评估(并准备缓解)来自先进人工智能的多智能体风险。在本报告中,我们迈出了第一步,提供了一个风险分类法,涵盖那些在多智能体环境中出现、更加具有挑战性或本质上不同的风险(见表1)。我们识别了三种关键的高层次失败模式(第2节),以及七个可能导致这些失败的关键风险因素(第3节),然后讨论了这些风险对人工智能安全、治理和伦理的影响(第4节)。在报告中,我们通过具体的案例研究、前人的研究成果和新实验来说明这些风险(见表3)。
1.1 概述
我们首先基于代理目标的性质和系统预期行为,识别了多智能体系统中的不同失败模式。在大多数多智能体系统中,我们关心的是人工智能代理是否能够合作以实现各自的目标或部署它们的组织的目标。在这种情况下,我们将失败分类为协调失误(第2.1节),即当代理有相同目标时未能合作,和冲突(第2.2节),即目标不同的代理未能合作。第三种也是最后一种失败模式——合谋(第2.3节)——则可能在竞争性环境中出现,我们不希望代理进行合作(例如在市场中)。 接下来,我们引入了一些风险因素,这些因素可以导致上述失败模式的出现,并且在很大程度上独立于代理的具体激励。例如,信息不对称可能导致目标相同的代理之间的协调失误,或者导致目标不同的代理之间的冲突。这些因素并不特定于人工智能系统,但人工智能系统与其他类型智能代理(如人类或企业)之间的差异,导致了不同的风险实例和潜在的解决方案。最后,请注意,以下风险因素并非穷尽的,且可能不是彼此独立的:
最后,我们将讨论这些风险在人工智能安全(第4.1节)、人工智能治理(第4.2节)和人工智能伦理(第4.3节)方面的影响。例如,大多数人工智能安全研究(第4.1节)关注的是单一系统的稳健性、可解释性或对齐等问题(Amodei et al., 2016;Anwar et al., 2024;Hendrycks et al., 2021),尽管越来越多的关于构建更安全人工智能系统的建议实际上是隐含多智能体的(例如,Drexler, 2019;Greenblatt et al., 2023;Irving et al., 2018;Perez et al., 2022a;Schwettmann et al., 2023)。人工智能治理(第4.2节)方面的努力通常涉及多利益相关者环境,这为治理工具与技术进展的结合提供了希望,从而缓解多智能体风险(Reuel et al., 2024a;Trager et al., 2023)。同时,多智能体交互自然引发了人工智能伦理(第4.3节)中的公平性、集体责任和社会利益等问题(Friedenberg & Halpern, 2019;Gabriel et al., 2024;Zhang & Shah, 2014a)。
1.2 范围
关于人工智能系统所带来的风险的担忧,涵盖了从偏见的招聘决策(Raghavan et al., 2020)到生存灾难(Bostrom, 2014)等广泛的议题,相关文献丰富。在简要回顾最相关的研究之前,我们有必要先澄清本报告的范围,具体如下:
无需多言,来自先进人工智能的多智能体风险并不是人工智能所带来的唯一风险,本报告所采取的视角也不是理解这些风险的唯一方法。此外,我们几乎完全忽略了先进多智能体系统的潜在好处:更大程度的去中心化和人工智能技术的民主化;协作与协调的帮助;更强的鲁棒性、灵活性和效率;解决单一代理设置中的对齐和安全问题的新方法;或许最重要的是,人工智能带来更广泛、更均衡的利益。我们希望本报告能够补充早期以及相关研究,帮助理解这些挑战和机遇。