本报告介绍了美国国防部(Department of Defense,DoD)在应用一种名为强化学习(Reinforcement Learning,RL)的人工智能(AI)技术时可能面临的一些挑战。在玩复杂的战略游戏时,强化学习被认为能使机器的决策能力超越人类。强化学习系统能在这些游戏中击败世界级专家,这一事实提出了这样一个问题:在 DoD的应用中,这种系统能否超越人类。与此尤其相关的是 “广泛 ”的应用,这些应用具有大型、复杂的流程,有多个步骤,导致军事指挥官做出很少但却至关重要的决定。在这种情况下,及时的替代方案可能会带来决定性的优势。然而,目前尚不清楚的是,从技术角度来看,这种系统会带来哪些风险(即技术故障导致任务失败),或者吸收这种技术会给部队结构带来哪些风险。本报告是了解在作战指挥和控制中采用可回收系统的相关风险的第一步。
主要结论
- DoD在使用和开发资源调动方面可能受到限制,原因是该领域缺乏专业技能组合,而且由于该领域竞争激烈、利润丰厚,一旦获得此类技能,就很难留住人才。
- 随着 RL 应用规模的扩大,对数据的高要求可能会超出国防部培训范围较窄的应用的能力。
- RL 的黑箱决策性质以及人类不愿意相信此类系统的非直观性所带来的问题,可能会限制应用的规模,使其仅限于目前由人类执行的流程。人类无法合理评估的大型流程可能会面临信任问题。
- 随着应用范围的扩大,RL 还面临许多额外的挑战,包括训练集和模拟模型的增长,以及精确定义 RL 训练的复杂性。虽然文献中的许多解决方案都是针对个别挑战领域的,但在 DoD的广泛应用中可能存在的所有挑战都没有解决方案。
建议
- DoD应探索吸引、培训和留住具备人工智能所需技能的劳动力的方法。
- DoD应开发获取和生成与国防部问题相关的高质量数据的方法,这些数据是训练 RL 算法所必需的。
- 在能够利用 RL 的优势之前,DoD应更好地了解 RL 应用的局限性,以及它如何提供优于现有技术的优势。
- DoD应考虑利用应用于较小问题的狭义人工智能可能带来的渐进式进步,而不是一开始就追求应用于更复杂问题的广义人工智能可能带来的优势。这种方法可以降低风险,同时为更广泛的人工智能提供一种引导训练手段。