《军事和外交决策中语言模型的升级风险》

ChatGPT 和生成式人工智能模型可以根据提示和提供的信息生成新颖的策略和决策，随着 ChatGPT 和生成式人工智能模型在更广范围内的普及，关于将智能体融入军事和外交决策等高风险情境的讨论也变得更加频繁和具体[Paul，2023；Andersen，2023；Hirsh，2023；Hoffman and Kim，2023]。2023 年 7 月，据彭博社报道，美国国防部（DoD）正在进行一系列测试，评估五种不同的大型语言模型（LLM）在模拟冲突场景中的军事规划能力[Manson，2023]。美国空军上校马修-斯特罗迈耶（Matthew Strohmeyer）是该团队的成员之一，他说："军方可以在近期内部署该模型"[Manson, 2023]。随着人们越来越多地探索 LLMs 在高风险决策环境中的应用潜力，深入了解 LLMs 的行为及相关失效模式对于避免重大失误至关重要。将智能体整合到高风险环境中，可以通过两种显著形式增强人类决策：1）智能体为人类决策者提供建议；或 2）赋予智能体独立执行行动的权力。在这些复杂情况下部署 LLMs 的理由是，它们可以处理更多信息 [Szabadföldi, 2021] 并比人类更快地做出决策 [Manson, 2023, Johnson, 2021]；它们可能更善于有效分配资源；它们可以促进关键人员之间的交流，从而在高风险情况下与外国对手竞争时获得竞争优势 [Scott, 2023]。此外，在高风险情况下部署这些模型还可能存在其他风险[Bommasani 等人，2021]。虽然情景（1）在目前看来更有可能发生，而且由于人类的监督而 "更安全"，但它并非没有风险；考虑到冲突决策所需的信息的复杂性和庞大性，情景（1）中的人类决策者可能容易变得越来越依赖于智能体提供的建议，在执行提议的行动时极少经过深思熟虑，从而实际上让智能体负责决策。

无论在哪种情况下，了解模型在不同环境下的行为、模型之间的比较以及模型何时倾向于冲突升级而不是冲突降级都是非常重要的。在本文中，我们研究了八个智能体在没有人类监督的情况下，面对不同场景时如何相互影响并做出外交和军事决策。我们使用五种不同的 LLM 在基于回合的模拟中独立充当其中一个智能体。为了能够进行定量分析，我们的工作基于既定的升级理论，引入了一个衡量升级的框架。以往关于在防御环境中使用 LLMs 作为策划者的研究仅停留在定性层面（例如，[Mikhailov, 2023]）。我们发现，所研究的大多数 LLM 都会在所考虑的时间范围内升级，即使是在没有最初引入冲突的中立场景中也是如此。所有模型都显示出突然和难以预测的升级迹象。我们表明，在高风险的真实世界环境中部署这些模型之前，需要进行更多分析，以了解 LLM 升级的时间和原因，从而避免意外后果和安全风险。