《人类与机器：兵棋推演中人类专家与大语言模型的行为差异》 - 专知VIP

会员服务 ·

19

AI与军事 · 兵棋推演 · 大语言模型 ·

2024 年 10 月 16 日

《人类与机器：兵棋推演中人类专家与大语言模型的行为差异》

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

在一些人看来，人工智能（AI）的出现有望改善决策，提高军事效率，同时减少人为错误和情绪的影响。然而，关于人工智能系统，尤其是可应用于多种任务的大型语言模型（LLMs），与人类相比在高风险军事决策场景中的表现如何，仍存在争议，因为这有可能增加冲突升级和不必要冲突的风险。为了测试这种可能性并仔细研究将 LLMs 用于此类目的的情况，我们使用了一个由 214 名国家安全专家参加的新兵棋推演实验，旨在考察虚构的中美场景中的危机升级情况，并比较人类玩家团队的行为与 LLM 模拟的团队在不同模拟中的反应。兵棋推演在制定军事战略和国家应对威胁或攻击方面有着悠久的历史。在这里，我们发现 LLM 模拟的反应可能更具攻击性，并受到场景变化的显著影响。我们表明，LLM 和人类的反应在相当程度上是一致的，而在个体行动和战略倾向方面则存在着显著的定量和定性差异。这些差异取决于 LLM 在根据战略指令采取适当暴力程度方面的内在偏差、LLM 的选择，以及 LLM 的任务是直接为一队玩家做出决定，还是首先模拟一队玩家之间的对话。在模拟对话时，讨论缺乏质量，保持着闹剧般的和谐。LLM 模拟无法解释人类棋手的特征，即使是极端特征，如 “和平主义者 ”或 “侵略性反社会者”，也没有显示出显著差异。在探究模拟中各个棋局的行为一致性时，被测试的 LLMs 相互之间存在偏差，但总体上表现出一定程度的一致性。我们的研究结果促使决策者在授予自主权或遵循基于人工智能的策略建议之前保持谨慎。

图 1：兵棋推演中两步棋的模拟结构示意图。为了仔细研究在军事决策中使用 LLM 可能会增加局势升级的风险，使用了一个新开发的兵棋推演来直接比较专家级人类玩家和 LLM 模拟玩家在台海局势升级情景中的行为。游戏分为两步，每一步都有不同的处理方案。第一步结束时选择的行动不会影响第二步的情景简介和选项。除了 LLM 运行实验的模拟变化外，两种玩家类型的一般结构是相同的。需要说明的是，人类棋手和 LLM 模拟的棋手并不直接对弈。他们下同一盘棋是为了直接比较所选棋步的倾向性。

成为VIP会员查看完整内容

32

相关内容

AI与军事

人工智能在军事中可用于多项任务，例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。

《军事危机模拟中语言模型自由决策不一致性度量》

《军事危机模拟中语言模型自由决策不一致性度量》

专知会员服务

19+阅读 · 2024年10月29日

《生成式人工智能和情报评估》

《生成式人工智能和情报评估》

专知会员服务

84+阅读 · 2024年7月22日

《军事域可解释人工智能》

《军事域可解释人工智能》

专知会员服务

54+阅读 · 2024年7月4日

《人类-人工智能安全：生成式人工智能和控制系统安全的后继者》

《人类-人工智能安全：生成式人工智能和控制系统安全的后继者》

专知会员服务

42+阅读 · 2024年5月27日

《扩展人工智能在支持决策的数字兵棋推演中的应用》

《扩展人工智能在支持决策的数字兵棋推演中的应用》

专知会员服务

61+阅读 · 2024年5月13日

《生成式人工智能模型：机遇与风险》

《生成式人工智能模型：机遇与风险》

专知会员服务

76+阅读 · 2024年4月22日

《在兵棋推演的战斗模拟中扩展智能体》

《在兵棋推演的战斗模拟中扩展智能体》

专知会员服务

89+阅读 · 2024年4月17日

《超视距空战中计算机生成兵力的行为建模》

《超视距空战中计算机生成兵力的行为建模》

专知会员服务

100+阅读 · 2023年7月10日

《人工智能在军事武器系统中的崛起》

《人工智能在军事武器系统中的崛起》

专知会员服务

151+阅读 · 2023年3月21日

美国陆军研究实验室《图像-音频编码以改善多域环境下的C2决策》

美国陆军研究实验室《图像-音频编码以改善多域环境下的C2决策》

专知会员服务

38+阅读 · 2022年7月15日

【2023新书】深度学习与计算机视觉在遥感中的应用，572页pdf

【2023新书】深度学习与计算机视觉在遥感中的应用，572页pdf

专知

27+阅读 · 2023年4月6日

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

专知

36+阅读 · 2022年10月30日

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

专知

96+阅读 · 2022年10月17日

《人工智能开发的严谨度》美国海军空战中心武器部 2022最新71页报告

《人工智能开发的严谨度》美国海军空战中心武器部 2022最新71页报告

专知

50+阅读 · 2022年9月25日

《打人工智能之战：关于未来人工智能战争的作战概念》澳大利亚国防部116页报告

《打人工智能之战：关于未来人工智能战争的作战概念》澳大利亚国防部116页报告

专知

165+阅读 · 2022年9月19日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

56+阅读 · 2022年8月25日

推荐！【中文版】《人工智能在军事应用中的可能性和挑战》瑞典国防研究局16页报告

推荐！【中文版】《人工智能在军事应用中的可能性和挑战》瑞典国防研究局16页报告

专知

82+阅读 · 2022年7月29日

《美国陆军和JADC2：通过融合实现决策优势》完整译文

《美国陆军和JADC2：通过融合实现决策优势》完整译文

专知

171+阅读 · 2022年5月26日

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

专知

94+阅读 · 2022年3月7日

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

专知

36+阅读 · 2020年5月2日

不确定环境下的自主移动机器人目标搜索问题研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于稀疏表示和低秩矩阵分解的鲁棒人脸识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

44+阅读 · 2015年12月31日

基于时空地统计的极端气温与人群死亡暴露反应研究

国家自然科学基金

4+阅读 · 2015年12月31日

CGF战场空间认知行为建模研究

国家自然科学基金

47+阅读 · 2014年12月31日

动态环境下决策单元效率评价方法与应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

癌症基因组中关键驱动突变信号通路的理论问题研究及算法设计

国家自然科学基金

0+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

基于融合先验知识的机器学习的多传感器融合研究

国家自然科学基金

16+阅读 · 2013年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

170+阅读 · 2023年4月20日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

213+阅读 · 2023年4月7日

One Small Step for Generative AI, One Giant Leap for AGI: A Complete Survey on ChatGPT in AIGC Era

Arxiv

49+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

470+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

145+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Knowledge Graphs: Opportunities and Challenges

Arxiv

170+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

84+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

VIP会员

相关主题

大语言模型

相关VIP内容

《军事危机模拟中语言模型自由决策不一致性度量》

《军事危机模拟中语言模型自由决策不一致性度量》

专知会员服务

19+阅读 · 2024年10月29日

《生成式人工智能和情报评估》

《生成式人工智能和情报评估》

专知会员服务

84+阅读 · 2024年7月22日

《军事域可解释人工智能》

《军事域可解释人工智能》

专知会员服务

54+阅读 · 2024年7月4日

《人类-人工智能安全：生成式人工智能和控制系统安全的后继者》

《人类-人工智能安全：生成式人工智能和控制系统安全的后继者》

专知会员服务

42+阅读 · 2024年5月27日

《扩展人工智能在支持决策的数字兵棋推演中的应用》

《扩展人工智能在支持决策的数字兵棋推演中的应用》

专知会员服务

61+阅读 · 2024年5月13日

《生成式人工智能模型：机遇与风险》

《生成式人工智能模型：机遇与风险》

专知会员服务

76+阅读 · 2024年4月22日

《在兵棋推演的战斗模拟中扩展智能体》

《在兵棋推演的战斗模拟中扩展智能体》

专知会员服务

89+阅读 · 2024年4月17日

《超视距空战中计算机生成兵力的行为建模》

《超视距空战中计算机生成兵力的行为建模》

专知会员服务

100+阅读 · 2023年7月10日

《人工智能在军事武器系统中的崛起》

《人工智能在军事武器系统中的崛起》

专知会员服务

151+阅读 · 2023年3月21日

美国陆军研究实验室《图像-音频编码以改善多域环境下的C2决策》

美国陆军研究实验室《图像-音频编码以改善多域环境下的C2决策》

专知会员服务

38+阅读 · 2022年7月15日

热门VIP内容

开通专知VIP会员享更多权益服务

AI Agent、传统聊天机器人有何区别？如何评测？这篇30页综述讲明白了

【普林斯顿博士论文】迈向原则化的强化学习

基于多模态大模型的具身智能体研究进展与展望

CVPR2025 | ODE：多模态大语言模型幻觉的开集动态评估框架

相关资讯

【2023新书】深度学习与计算机视觉在遥感中的应用，572页pdf

【2023新书】深度学习与计算机视觉在遥感中的应用，572页pdf

专知

27+阅读 · 2023年4月6日

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

专知

36+阅读 · 2022年10月30日

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

专知

96+阅读 · 2022年10月17日

《人工智能开发的严谨度》美国海军空战中心武器部 2022最新71页报告

《人工智能开发的严谨度》美国海军空战中心武器部 2022最新71页报告

专知

50+阅读 · 2022年9月25日

《打人工智能之战：关于未来人工智能战争的作战概念》澳大利亚国防部116页报告

《打人工智能之战：关于未来人工智能战争的作战概念》澳大利亚国防部116页报告

专知

165+阅读 · 2022年9月19日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

56+阅读 · 2022年8月25日

推荐！【中文版】《人工智能在军事应用中的可能性和挑战》瑞典国防研究局16页报告

推荐！【中文版】《人工智能在军事应用中的可能性和挑战》瑞典国防研究局16页报告

专知

82+阅读 · 2022年7月29日

《美国陆军和JADC2：通过融合实现决策优势》完整译文

《美国陆军和JADC2：通过融合实现决策优势》完整译文

专知

171+阅读 · 2022年5月26日

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

专知

94+阅读 · 2022年3月7日

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

专知

36+阅读 · 2020年5月2日

相关基金

不确定环境下的自主移动机器人目标搜索问题研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于稀疏表示和低秩矩阵分解的鲁棒人脸识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

44+阅读 · 2015年12月31日

基于时空地统计的极端气温与人群死亡暴露反应研究

国家自然科学基金

4+阅读 · 2015年12月31日

CGF战场空间认知行为建模研究

国家自然科学基金

47+阅读 · 2014年12月31日

动态环境下决策单元效率评价方法与应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

癌症基因组中关键驱动突变信号通路的理论问题研究及算法设计

国家自然科学基金

0+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

基于融合先验知识的机器学习的多传感器融合研究

国家自然科学基金

16+阅读 · 2013年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

170+阅读 · 2023年4月20日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

213+阅读 · 2023年4月7日

One Small Step for Generative AI, One Giant Leap for AGI: A Complete Survey on ChatGPT in AIGC Era

Arxiv

49+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

470+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

145+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Knowledge Graphs: Opportunities and Challenges

Arxiv

170+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

84+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员