《基于深度强化学习的战场策略》 - 专知VIP

会员服务 ·

20

AI与军事 · 深度强化学习 · 战争策略 ·

《基于深度强化学习的战场策略》

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

强化学习（RL）提供了在游戏中寻找最佳策略的模拟方法。近年来，深度神经网络的发展为在更复杂的场景中使用 RL 提供了可能，例如 DeepMind 的 AlphaGo。我们将讨论在复杂战场模拟中使用深度强化学习的可能性。双方都可能有一个或多个角色。在给定的影响范围内，每个角色都会被分配一定数量的传感器特性和武器能力。对给定场景进行强化学习的神经网络训练有可能为这些场景提供最佳策略。此外，改变代表特定特征（如传感器范围或攻击能力）的参数值可能有助于确定战场上的战略重点。

在复杂的战场场景中，两个或两个以上的行动者自主行动，并根据传感器的输入做出决策，本文希望开发一种工具，用于寻找最优--或至少是良好或更好--的战术或策略，以完成预定任务。将实际场景限定为最终结局，即行动者的传感器和效应器相互影响的区域。就目的而言，传感器和效应器可以通过模拟器在对立行动者之间的模拟游戏中进行描述和表示。这种模拟游戏是观察和收集数据的来源。与现实生活中的测试和实验相比，模拟的成本要低得多。近年来，机器学习的发展和图形处理器（GPU）的计算能力与海量数据相结合，为研究此类问题提供了一套新的工具。由于很难甚至不可能获得复杂战场场景的大量数据，因此需要进行模拟观察。强化学习（RL）作为机器学习的一个子领域，已被证明能够在复杂的棋盘游戏中发挥超人的能力。新的吸引力来自于利用 RL 取得的几项成果，例如 DeepMind 的 1970 年代 ATARI 游戏；AlphaGo 的中国围棋战略游戏和 AlphaZero；或 AlphaZero 的国际象棋和将棋。每个角色都是在信息、传感器视野和可用武器射程受限的情况下进行模拟的。在每个时间步骤中，行为体也只能采取数量有限的可能行动。在使用 RL 配合决策制定过程时，信息状态和最佳决策之间的映射将逐渐得到加强。在这一过程中，最佳战略方针可能会显现出来。使用 RL 而非传统方法（即蒙特卡罗模拟）的优势在于，它有可能揭示一般政策。

这些策略可用于更通用的环境，而不是仅适用于某一特定场景的结果。通用策略可为多个领域的决策过程提供支持，例如战场机动或研究与创新方法。

本文的结构如下：在第 2 节中，将论证 RL 终局的最优策略对于军事规划的重要价值。第 3 节是主要部分，包括方法和结果，其中介绍了 RL，包括游戏和行动者。对于行动者，我们描述了各个特征区域和决策区域，它们是终局分析的基本结构。给出了一个简短的概念演示，并介绍了一些挑战和未来工作。

图 3-8：左边是一个失败的例子，以损失值作为奖励。右图是收敛学习后的成功案例。这两幅图都是从蓝色行动者的视角绘制的。

成为VIP会员查看完整内容

34

相关内容

AI与军事

人工智能在军事中可用于多项任务，例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。

《基于可解释人工智能的深度强化学习实现战斗机导航和作战》

《基于可解释人工智能的深度强化学习实现战斗机导航和作战》

专知会员服务

25+阅读 · 2月23日

《可解释深度强化学习综述》

《可解释深度强化学习综述》

专知会员服务

38+阅读 · 2月12日

《战术数据链感知模拟器标准的不断演变》

《战术数据链感知模拟器标准的不断演变》

专知会员服务

30+阅读 · 2024年12月26日

《整个战术周期中的武器模拟即服务》

《整个战术周期中的武器模拟即服务》

专知会员服务

26+阅读 · 2024年12月18日

《认知战态势感知可视化框架》

《认知战态势感知可视化框架》

专知会员服务

52+阅读 · 2024年12月13日

《军事危机模拟中语言模型自由决策不一致性度量》

《军事危机模拟中语言模型自由决策不一致性度量》

专知会员服务

19+阅读 · 2024年10月29日

《改进事后分析（AAR）：自然语言处理和机器学习的军事训练应用》

《改进事后分析（AAR）：自然语言处理和机器学习的军事训练应用》

专知会员服务

40+阅读 · 2024年2月25日

《高超音速攻击中武器与目标分配的深度强化学习》

《高超音速攻击中武器与目标分配的深度强化学习》

专知会员服务

57+阅读 · 2024年1月16日

《战争策略优化算法：用于全局优化的新型有效元搜索算法》

《战争策略优化算法：用于全局优化的新型有效元搜索算法》

专知会员服务

65+阅读 · 2023年11月16日

《OODA 和 CECA：决策框架分析》

《OODA 和 CECA：决策框架分析》

专知会员服务

107+阅读 · 2023年11月8日

《多域作战环境下的军事决策过程》

《多域作战环境下的军事决策过程》

专知

98+阅读 · 2023年4月12日

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

专知

26+阅读 · 2023年4月11日

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

专知

57+阅读 · 2022年11月2日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

27+阅读 · 2022年9月19日

【经典书】图数据挖掘算法，安全性及应用，256页pdf

【经典书】图数据挖掘算法，安全性及应用，256页pdf

专知

17+阅读 · 2022年8月22日

【2022新书】联邦学习：方法和应用的综合概述，531页pdf

【2022新书】联邦学习：方法和应用的综合概述，531页pdf

专知

25+阅读 · 2022年7月14日

【深度度量学习系列】Triplet-loss原理与应用

【深度度量学习系列】Triplet-loss原理与应用

AINLP

61+阅读 · 2020年10月7日

最新《图嵌入组合优化》综述论文，40页pdf

最新《图嵌入组合优化》综述论文，40页pdf

专知

38+阅读 · 2020年8月31日

多模态深度学习综述，18页pdf

多模态深度学习综述，18页pdf

专知

50+阅读 · 2020年3月29日

深度学习与计算机视觉任务应用综述

深度学习与计算机视觉任务应用综述

深度学习与NLP

50+阅读 · 2018年12月18日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

41+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

42+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

CGF战场空间认知行为建模研究

国家自然科学基金

45+阅读 · 2014年12月31日

图的随机p-中心和中位问题的理论和算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

10+阅读 · 2013年12月31日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

98+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

203+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

448+阅读 · 2023年3月31日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

A survey and taxonomy of loss functions in machine learning

Arxiv

23+阅读 · 2023年1月13日

Geometric multimodal representation learning

Arxiv

68+阅读 · 2022年9月7日

On games and simulators as a platform for development of artificial intelligence for command and control

On games and simulators as a platform for development of artificial intelligence for command and control

Arxiv

85+阅读 · 2021年10月21日

Explaining generalization in deep learning: progress and fundamental limits

Arxiv

10+阅读 · 2021年10月17日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

VIP会员

相关主题

深度强化学习

相关VIP内容

《基于可解释人工智能的深度强化学习实现战斗机导航和作战》

《基于可解释人工智能的深度强化学习实现战斗机导航和作战》

专知会员服务

25+阅读 · 2月23日

《可解释深度强化学习综述》

《可解释深度强化学习综述》

专知会员服务

38+阅读 · 2月12日

《战术数据链感知模拟器标准的不断演变》

《战术数据链感知模拟器标准的不断演变》

专知会员服务

30+阅读 · 2024年12月26日

《整个战术周期中的武器模拟即服务》

《整个战术周期中的武器模拟即服务》

专知会员服务

26+阅读 · 2024年12月18日

《认知战态势感知可视化框架》

《认知战态势感知可视化框架》

专知会员服务

52+阅读 · 2024年12月13日

《军事危机模拟中语言模型自由决策不一致性度量》

《军事危机模拟中语言模型自由决策不一致性度量》

专知会员服务

19+阅读 · 2024年10月29日

《改进事后分析（AAR）：自然语言处理和机器学习的军事训练应用》

《改进事后分析（AAR）：自然语言处理和机器学习的军事训练应用》

专知会员服务

40+阅读 · 2024年2月25日

《高超音速攻击中武器与目标分配的深度强化学习》

《高超音速攻击中武器与目标分配的深度强化学习》

专知会员服务

57+阅读 · 2024年1月16日

《战争策略优化算法：用于全局优化的新型有效元搜索算法》

《战争策略优化算法：用于全局优化的新型有效元搜索算法》

专知会员服务

65+阅读 · 2023年11月16日

《OODA 和 CECA：决策框架分析》

《OODA 和 CECA：决策框架分析》

专知会员服务

107+阅读 · 2023年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

美陆军2025.4最新条令《地面装备战损评估、修复与回收作业规范》138页

《战略战备风险管理：概念、实践、数据分析与实施路径》美智库最新65页

国防领域边缘计算：将智能推向行动前沿

《多机器人系统协作效能提升：基于模型与数据驱动的具身智能方法》339页

相关资讯

《多域作战环境下的军事决策过程》

《多域作战环境下的军事决策过程》

专知

98+阅读 · 2023年4月12日

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

专知

26+阅读 · 2023年4月11日

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

专知

57+阅读 · 2022年11月2日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

27+阅读 · 2022年9月19日

【经典书】图数据挖掘算法，安全性及应用，256页pdf

【经典书】图数据挖掘算法，安全性及应用，256页pdf

专知

17+阅读 · 2022年8月22日

【2022新书】联邦学习：方法和应用的综合概述，531页pdf

【2022新书】联邦学习：方法和应用的综合概述，531页pdf

专知

25+阅读 · 2022年7月14日

【深度度量学习系列】Triplet-loss原理与应用

【深度度量学习系列】Triplet-loss原理与应用

AINLP

61+阅读 · 2020年10月7日

最新《图嵌入组合优化》综述论文，40页pdf

最新《图嵌入组合优化》综述论文，40页pdf

专知

38+阅读 · 2020年8月31日

多模态深度学习综述，18页pdf

多模态深度学习综述，18页pdf

专知

50+阅读 · 2020年3月29日

深度学习与计算机视觉任务应用综述

深度学习与计算机视觉任务应用综述

深度学习与NLP

50+阅读 · 2018年12月18日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

41+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

42+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

CGF战场空间认知行为建模研究

国家自然科学基金

45+阅读 · 2014年12月31日

图的随机p-中心和中位问题的理论和算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

10+阅读 · 2013年12月31日

相关论文

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

98+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

203+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

448+阅读 · 2023年3月31日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

A survey and taxonomy of loss functions in machine learning

Arxiv

23+阅读 · 2023年1月13日

Geometric multimodal representation learning

Arxiv

68+阅读 · 2022年9月7日

On games and simulators as a platform for development of artificial intelligence for command and control

On games and simulators as a platform for development of artificial intelligence for command and control

Arxiv

85+阅读 · 2021年10月21日

Explaining generalization in deep learning: progress and fundamental limits

Arxiv

10+阅读 · 2021年10月17日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

微信扫码咨询专知VIP会员