《利用深度强化学习实现作战训练场景自动生成》

模拟培训是帮助学员准备完成各种复杂任务和技能的重要工具。模拟培训环境的一个关键功能是提供场景，推动学习互动，逼近真实世界的情况。然而，创建模拟培训场景通常需要大量资源。一些模拟环境提供的创建工具可以让主题专家手动创建新的培训场景，但这些工具通常需要高度的专业知识才能有效使用。创建的场景通常无法在其他培训环境中重复使用，而且与特定创建工具相关的知识的可转移性有限。此外，学习者通常只能利用系统设计者提供的有限的场景进行培训。如果学习者已经掌握了与现有培训场景相关的学习目标，那么进一步的模拟培训也就没有什么益处了。最后，培训模拟场景通常采用 “一刀切 ”的方法：它们对学习者在知识或行为方面的广泛个体差异做出动态响应的能力有限。

自动生成场景为满足模拟培训的需求提供了巨大的希望。通过利用自动场景生成技术，模拟环境可以考虑学习者在应对不同类型场景事件时的个体差异。此外，它们还能创建有效的培训场景变化，而无需每个场景都由人类专家手动编写或管理。通过利用交互式叙事技术的生成技术，我们可以动态地创建培训场景，这些场景的配置既能满足教师的学习目标，又能适应学生个体的认知和行为特征（Riedl & Bulitko, 2012; Wang et al.）

机器学习（包括人工神经网络（一般）和深度学习（特别））的最新进展激发了人们对数据驱动的交互式叙事生成方法的兴趣。例如，深度强化学习（deep RL）已开始在以叙事为中心的学习环境中显示出个性化事件的巨大前景（Wang 等人，2017 年）。然而，关于我们如何才能最有效地利用机器学习来自动生成适合教师和学员学习目标的培训场景，还有许多问题有待解决。为了着手解决这些问题，我们正在北卡罗来纳州立大学、智能自动化公司（Intelligent Automation, Inc. 为了充当测试平台环境，正在为虚拟战场 3（VBS3）生成训练场景，VBS3 是陆军内部广泛用于小分队训练的模拟平台，最初的重点是 “火力呼叫”（CFF）训练。

本文中将概述用于自动场景生成的深度 RL 框架。描述了如何将自动场景生成正式化为深度 RL 任务。讨论了该框架的几个关键组成部分，包括场景适应库、模拟学习者和多目标奖励的深度神经网络模型。将介绍 VBS3 训练模拟，并将其用作初始测试平台环境。接下来，将介绍基于强化学习的场景生成器的概念验证实施的初步结果，该生成器的核心是使用multi-armed bandits（即一种与深度 RL 相关的随机调度技术）为 CFF 训练生成初始场景条件。

用于自动场景生成的深度 RL 框架由几个关键组件组成： (1) 深度 Q 网络模型，用于控制优化多个场景目标的运行时场景适应决策；(2) 场景适应库，用于指定 “父 ”场景的可能转换，以生成 “子 ”场景；(3) 模拟学习者框架，用于生成合成数据，以训练初始版本的场景生成器。此外，该框架还需要一个软件基础设施，用于将自动情景生成功能与 GIFT 的模块化软件架构相集成。

成为VIP会员查看完整内容