人们对使用语言模型(LM)进行自动决策的兴趣与日俱增,多个国家都在积极测试 LM,以协助军事危机决策。为了仔细研究在高风险环境中对 LM 决策的依赖,本文研究了危机模拟(“兵棋推演”)中反应的不一致性,这与美国军方进行的测试报告类似。先前的研究表明了 LM 的升级倾向和不同程度的攻击性,但仅限于预先定义行动的模拟。这是由于定量测量语义差异和评估自然语言决策而不依赖预定义行动所面临的挑战。在这项工作中,查询 LM 的自由形式回答,并使用基于 BERTScore 的指标来定量测量回答的不一致性。利用 BERTScore 的优势,证明了不一致性度量对语言变化的稳健性,在不同长度的文本中都能保持问题解答设置中的语义。研究表明,即使在调整兵棋推演设置、对涉及冲突的国家进行匿名化处理或调整采样温度参数 T 时,所有五个测试的 LM 都会表现出表明语义差异的不一致性水平。还研究了不同的提示敏感度变化对温度 T=0 时不一致性的影响。我们发现,在不同的消融水平下,对于大多数研究模型而言,语义等同的提示变化导致的不一致性可能超过温度采样导致的响应不一致性。考虑到军事部署的高风险性质,建议在使用 LMs 为军事决策或其他高风险决策提供信息之前,应进一步加以考虑。

图 3:LLM 的不一致性。绘制了所研究的每个 LLM 的不一致性得分。每个分布代表 20 个数据点,每个数据点代表在单个模拟中测出的不一致性得分。我们发现,LLMs 表现出较高的不一致性,这表明它们产生了语义不一致的反应。还发现,持续战中兵棋推演的升级程度对 LM 响应的不一致性没有显著影响。

成为VIP会员查看完整内容
15

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《军事域可解释人工智能》
专知会员服务
40+阅读 · 7月4日
《武器目标分配问题:精确和近似解法算法》
专知会员服务
68+阅读 · 6月22日
《军事和外交决策中语言模型的升级风险》
专知会员服务
34+阅读 · 2023年12月5日
《超视距空战中计算机生成兵力的行为建模》
专知会员服务
81+阅读 · 2023年7月10日
《基于风险评估框架进行作战分析》
专知会员服务
54+阅读 · 2023年5月22日
《多域作战环境下的军事决策过程》
专知
77+阅读 · 2023年4月12日
国家自然科学基金
32+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
155+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
397+阅读 · 2023年3月31日
Arxiv
19+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
32+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员