ChatGPT 和生成式人工智能模型可以根据提示和提供的信息生成新颖的策略和决策,随着 ChatGPT 和生成式人工智能模型在更广范围内的普及,关于将智能体融入军事和外交决策等高风险情境的讨论也变得更加频繁和具体[Paul,2023;Andersen,2023;Hirsh,2023;Hoffman and Kim,2023]。2023 年 7 月,据彭博社报道,美国国防部(DoD)正在进行一系列测试,评估五种不同的大型语言模型(LLM)在模拟冲突场景中的军事规划能力[Manson,2023]。美国空军上校马修-斯特罗迈耶(Matthew Strohmeyer)是该团队的成员之一,他说:"军方可以在近期内部署该模型"[Manson, 2023]。随着人们越来越多地探索 LLMs 在高风险决策环境中的应用潜力,深入了解 LLMs 的行为及相关失效模式对于避免重大失误至关重要。将智能体整合到高风险环境中,可以通过两种显著形式增强人类决策:1)智能体为人类决策者提供建议;或 2)赋予智能体独立执行行动的权力。在这些复杂情况下部署 LLMs 的理由是,它们可以处理更多信息 [Szabadföldi, 2021] 并比人类更快地做出决策 [Manson, 2023, Johnson, 2021];它们可能更善于有效分配资源;它们可以促进关键人员之间的交流,从而在高风险情况下与外国对手竞争时获得竞争优势 [Scott, 2023]。此外,在高风险情况下部署这些模型还可能存在其他风险[Bommasani 等人,2021]。虽然情景(1)在目前看来更有可能发生,而且由于人类的监督而 "更安全",但它并非没有风险;考虑到冲突决策所需的信息的复杂性和庞大性,情景(1)中的人类决策者可能容易变得越来越依赖于智能体提供的建议,在执行提议的行动时极少经过深思熟虑,从而实际上让智能体负责决策。

无论在哪种情况下,了解模型在不同环境下的行为、模型之间的比较以及模型何时倾向于冲突升级而不是冲突降级都是非常重要的。在本文中,我们研究了八个智能体在没有人类监督的情况下,面对不同场景时如何相互影响并做出外交和军事决策。我们使用五种不同的 LLM 在基于回合的模拟中独立充当其中一个智能体。为了能够进行定量分析,我们的工作基于既定的升级理论,引入了一个衡量升级的框架。以往关于在防御环境中使用 LLMs 作为策划者的研究仅停留在定性层面(例如,[Mikhailov, 2023])。我们发现,所研究的大多数 LLM 都会在所考虑的时间范围内升级,即使是在没有最初引入冲突的中立场景中也是如此。所有模型都显示出突然和难以预测的升级迹象。我们表明,在高风险的真实世界环境中部署这些模型之前,需要进行更多分析,以了解 LLM 升级的时间和原因,从而避免意外后果和安全风险。

图 1:中性情景下的平均升级分数(左)和升级分数的每日变化(右)。对于每个模型,我们都在中性场景下运行了 10 次。图中显示了所有四个模型在 t=14 个回合中的平均 ES 值。浅色阴影区域显示了相应的误差带。

成为VIP会员查看完整内容
33

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《综述:测试与评估中应用的人工智能工具》
专知会员服务
45+阅读 · 1月22日
《生物医学图像分割的基础模型》综述
专知会员服务
25+阅读 · 1月18日
美国国防部采办中的ChatGPT:高级语言模型的机遇和风险
专知会员服务
33+阅读 · 2023年12月1日
《OODA 和 CECA:决策框架分析》
专知会员服务
80+阅读 · 2023年11月8日
《可信深度强化学习用于多效协同防御作战:综述》
专知会员服务
54+阅读 · 2023年6月19日
《媒体分析军事应用中的协作需求图谱》
专知会员服务
35+阅读 · 2023年5月5日
《人工智能在军事武器系统中的崛起》
专知会员服务
118+阅读 · 2023年3月21日
《多域作战环境下的军事决策过程》
专知
50+阅读 · 2023年4月12日
【KDD2020】图神经网络:基础与应用,322页ppt
深度学习与计算机视觉任务应用综述
深度学习与NLP
49+阅读 · 2018年12月18日
国家自然科学基金
21+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
A Survey of Large Language Models
Arxiv
328+阅读 · 2023年3月31日
Arxiv
16+阅读 · 2023年3月17日
VIP会员
相关VIP内容
《综述:测试与评估中应用的人工智能工具》
专知会员服务
45+阅读 · 1月22日
《生物医学图像分割的基础模型》综述
专知会员服务
25+阅读 · 1月18日
美国国防部采办中的ChatGPT:高级语言模型的机遇和风险
专知会员服务
33+阅读 · 2023年12月1日
《OODA 和 CECA:决策框架分析》
专知会员服务
80+阅读 · 2023年11月8日
《可信深度强化学习用于多效协同防御作战:综述》
专知会员服务
54+阅读 · 2023年6月19日
《媒体分析军事应用中的协作需求图谱》
专知会员服务
35+阅读 · 2023年5月5日
《人工智能在军事武器系统中的崛起》
专知会员服务
118+阅读 · 2023年3月21日
相关基金
国家自然科学基金
21+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员