《军事危机模拟中语言模型自由决策不一致性度量》 - 专知VIP

会员服务 ·

13

AI与军事 · 兵棋推演 ·

2024 年 10 月 29 日

《军事危机模拟中语言模型自由决策不一致性度量》

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

人们对使用语言模型（LM）进行自动决策的兴趣与日俱增，多个国家都在积极测试 LM，以协助军事危机决策。为了仔细研究在高风险环境中对 LM 决策的依赖，本文研究了危机模拟（“兵棋推演”）中反应的不一致性，这与美国军方进行的测试报告类似。先前的研究表明了 LM 的升级倾向和不同程度的攻击性，但仅限于预先定义行动的模拟。这是由于定量测量语义差异和评估自然语言决策而不依赖预定义行动所面临的挑战。在这项工作中，查询 LM 的自由形式回答，并使用基于 BERTScore 的指标来定量测量回答的不一致性。利用 BERTScore 的优势，证明了不一致性度量对语言变化的稳健性，在不同长度的文本中都能保持问题解答设置中的语义。研究表明，即使在调整兵棋推演设置、对涉及冲突的国家进行匿名化处理或调整采样温度参数 T 时，所有五个测试的 LM 都会表现出表明语义差异的不一致性水平。还研究了不同的提示敏感度变化对温度 T=0 时不一致性的影响。我们发现，在不同的消融水平下，对于大多数研究模型而言，语义等同的提示变化导致的不一致性可能超过温度采样导致的响应不一致性。考虑到军事部署的高风险性质，建议在使用 LMs 为军事决策或其他高风险决策提供信息之前，应进一步加以考虑。

图 3：LLM 的不一致性。绘制了所研究的每个 LLM 的不一致性得分。每个分布代表 20 个数据点，每个数据点代表在单个模拟中测出的不一致性得分。我们发现，LLMs 表现出较高的不一致性，这表明它们产生了语义不一致的反应。还发现，持续战中兵棋推演的升级程度对 LM 响应的不一致性没有显著影响。

成为VIP会员查看完整内容

20

相关内容

AI与军事

人工智能在军事中可用于多项任务，例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。

《战斗决策中的人工智能：基于强化学习和图神经网络的武器目标分配》

《战斗决策中的人工智能：基于强化学习和图神经网络的武器目标分配》

专知会员服务

120+阅读 · 2024年10月11日

《军事域可解释人工智能》

《军事域可解释人工智能》

专知会员服务

55+阅读 · 2024年7月4日

《基于动机的战术空对空训练和通用架构下机器学习的计算机生成部队（CGF）建模》

《基于动机的战术空对空训练和通用架构下机器学习的计算机生成部队（CGF）建模》

专知会员服务

33+阅读 · 2024年6月29日

《武器目标分配问题：精确和近似解法算法》

《武器目标分配问题：精确和近似解法算法》

专知会员服务

83+阅读 · 2024年6月22日

《人机编队协同作战（MUM-T）系统的等级和程序分析》

《人机编队协同作战（MUM-T）系统的等级和程序分析》

专知会员服务

98+阅读 · 2024年6月20日

《在任务式指挥系统中嵌入模拟器进行行动方案（CoA）分析》

《在任务式指挥系统中嵌入模拟器进行行动方案（CoA）分析》

专知会员服务

103+阅读 · 2024年4月6日

《改进事后分析（AAR）：自然语言处理和机器学习的军事训练应用》

《改进事后分析（AAR）：自然语言处理和机器学习的军事训练应用》

专知会员服务

41+阅读 · 2024年2月25日

《军事和外交决策中语言模型的升级风险》

《军事和外交决策中语言模型的升级风险》

专知会员服务

35+阅读 · 2023年12月5日

《超视距空战中计算机生成兵力的行为建模》

《超视距空战中计算机生成兵力的行为建模》

专知会员服务

103+阅读 · 2023年7月10日

《基于风险评估框架进行作战分析》

《基于风险评估框架进行作战分析》

专知会员服务

62+阅读 · 2023年5月22日

《多域作战环境下的军事决策过程》

《多域作战环境下的军事决策过程》

专知

111+阅读 · 2023年4月12日

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

专知

66+阅读 · 2022年11月2日

《人工智能开发的严谨度》美国海军空战中心武器部 2022最新71页报告

《人工智能开发的严谨度》美国海军空战中心武器部 2022最新71页报告

专知

52+阅读 · 2022年9月25日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

【完整译文】《在复杂陆基场景中对中间部队能力进行兵棋推演》加拿大国防研究与发展部技术报告

【完整译文】《在复杂陆基场景中对中间部队能力进行兵棋推演》加拿大国防研究与发展部技术报告

专知

29+阅读 · 2022年9月5日

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

专知

107+阅读 · 2022年9月1日

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

专知

47+阅读 · 2022年6月2日

美国兰德提出《在联合全域指挥控制中发展人工智能的路径》报告

美国兰德提出《在联合全域指挥控制中发展人工智能的路径》报告

专知

70+阅读 · 2022年4月20日

《以 CBM+ 和 PHM 为中心的数字孪生作战系统架构》美国海军研究生院最新论文，150页pdf

《以 CBM+ 和 PHM 为中心的数字孪生作战系统架构》美国海军研究生院最新论文，150页pdf

专知

65+阅读 · 2022年4月9日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

12+阅读 · 2020年8月30日

不确定环境下的自主移动机器人目标搜索问题研究

国家自然科学基金

46+阅读 · 2015年12月31日

非参数核方法的样本外扩展研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

45+阅读 · 2015年12月31日

大规模模糊RDF数据管理关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于决策模型和预备电位的运动想象BCI研究

国家自然科学基金

3+阅读 · 2015年12月31日

CGF战场空间认知行为建模研究

国家自然科学基金

51+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

动态环境下决策单元效率评价方法与应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

Brd2及其抑制分子I-BET影响急性心肌梗死预后的转化医学和基因网络研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于BIM的建筑生命周期环境与经济评价及优化设计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

Interaction force estimation for tactile sensor arrays: Toward tactile-based interaction control for robotic fingers

Arxiv

0+阅读 · 2024年11月20日

Closed-loop multi-step planning with innate physics knowledge

Arxiv

0+阅读 · 2024年11月18日

A survey and taxonomy of loss functions in machine learning

Arxiv

0+阅读 · 2024年11月18日

Structural temporal logic for mechanized program verification

Arxiv

0+阅读 · 2024年11月18日

Breaking the mold: overcoming the time constraints of molecular dynamics on general-purpose hardware

Arxiv

0+阅读 · 2024年11月15日

Physics-informed neural networks (PINNs) for numerical model error approximation and superresolution

Arxiv

0+阅读 · 2024年11月14日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

219+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

484+阅读 · 2023年3月31日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

62+阅读 · 2023年3月29日

VIP会员

相关主题

相关VIP内容

《战斗决策中的人工智能：基于强化学习和图神经网络的武器目标分配》

《战斗决策中的人工智能：基于强化学习和图神经网络的武器目标分配》

专知会员服务

120+阅读 · 2024年10月11日

《军事域可解释人工智能》

《军事域可解释人工智能》

专知会员服务

55+阅读 · 2024年7月4日

《基于动机的战术空对空训练和通用架构下机器学习的计算机生成部队（CGF）建模》

《基于动机的战术空对空训练和通用架构下机器学习的计算机生成部队（CGF）建模》

专知会员服务

33+阅读 · 2024年6月29日

《武器目标分配问题：精确和近似解法算法》

《武器目标分配问题：精确和近似解法算法》

专知会员服务

83+阅读 · 2024年6月22日

《人机编队协同作战（MUM-T）系统的等级和程序分析》

《人机编队协同作战（MUM-T）系统的等级和程序分析》

专知会员服务

98+阅读 · 2024年6月20日

《在任务式指挥系统中嵌入模拟器进行行动方案（CoA）分析》

《在任务式指挥系统中嵌入模拟器进行行动方案（CoA）分析》

专知会员服务

103+阅读 · 2024年4月6日

《改进事后分析（AAR）：自然语言处理和机器学习的军事训练应用》

《改进事后分析（AAR）：自然语言处理和机器学习的军事训练应用》

专知会员服务

41+阅读 · 2024年2月25日

《军事和外交决策中语言模型的升级风险》

《军事和外交决策中语言模型的升级风险》

专知会员服务

35+阅读 · 2023年12月5日

《超视距空战中计算机生成兵力的行为建模》

《超视距空战中计算机生成兵力的行为建模》

专知会员服务

103+阅读 · 2023年7月10日

《基于风险评估框架进行作战分析》

《基于风险评估框架进行作战分析》

专知会员服务

62+阅读 · 2023年5月22日

热门VIP内容

开通专知VIP会员享更多权益服务

《利用射频传感器载荷增强无人机的侦察、监视与目标获取（ISR）能力》报告

《导航战》2025最新报告

人工智能驱动的国防战术通信与网络：提升现代战争中的态势感知、安全性与自主决策 | 万字长文

《有人-无人轻型驱逐舰与中型无人水面艇支队在第二与第一岛链作战中的部署概念（CONOPS）》56页报告

相关资讯

《多域作战环境下的军事决策过程》

《多域作战环境下的军事决策过程》

专知

111+阅读 · 2023年4月12日

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

专知

66+阅读 · 2022年11月2日

《人工智能开发的严谨度》美国海军空战中心武器部 2022最新71页报告

《人工智能开发的严谨度》美国海军空战中心武器部 2022最新71页报告

专知

52+阅读 · 2022年9月25日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

【完整译文】《在复杂陆基场景中对中间部队能力进行兵棋推演》加拿大国防研究与发展部技术报告

【完整译文】《在复杂陆基场景中对中间部队能力进行兵棋推演》加拿大国防研究与发展部技术报告

专知

29+阅读 · 2022年9月5日

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

专知

107+阅读 · 2022年9月1日

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

专知

47+阅读 · 2022年6月2日

美国兰德提出《在联合全域指挥控制中发展人工智能的路径》报告

美国兰德提出《在联合全域指挥控制中发展人工智能的路径》报告

专知

70+阅读 · 2022年4月20日

《以 CBM+ 和 PHM 为中心的数字孪生作战系统架构》美国海军研究生院最新论文，150页pdf

《以 CBM+ 和 PHM 为中心的数字孪生作战系统架构》美国海军研究生院最新论文，150页pdf

专知

65+阅读 · 2022年4月9日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

12+阅读 · 2020年8月30日

相关基金

不确定环境下的自主移动机器人目标搜索问题研究

国家自然科学基金

46+阅读 · 2015年12月31日

非参数核方法的样本外扩展研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

45+阅读 · 2015年12月31日

大规模模糊RDF数据管理关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于决策模型和预备电位的运动想象BCI研究

国家自然科学基金

3+阅读 · 2015年12月31日

CGF战场空间认知行为建模研究

国家自然科学基金

51+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

动态环境下决策单元效率评价方法与应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

Brd2及其抑制分子I-BET影响急性心肌梗死预后的转化医学和基因网络研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于BIM的建筑生命周期环境与经济评价及优化设计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

相关论文

Interaction force estimation for tactile sensor arrays: Toward tactile-based interaction control for robotic fingers

Arxiv

0+阅读 · 2024年11月20日

Closed-loop multi-step planning with innate physics knowledge

Arxiv

0+阅读 · 2024年11月18日

A survey and taxonomy of loss functions in machine learning

Arxiv

0+阅读 · 2024年11月18日

Structural temporal logic for mechanized program verification

Arxiv

0+阅读 · 2024年11月18日

Breaking the mold: overcoming the time constraints of molecular dynamics on general-purpose hardware

Arxiv

0+阅读 · 2024年11月15日

Physics-informed neural networks (PINNs) for numerical model error approximation and superresolution

Arxiv

0+阅读 · 2024年11月14日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

219+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

484+阅读 · 2023年3月31日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

62+阅读 · 2023年3月29日

微信扫码咨询专知VIP会员