《人机协作的避撞决策模型》美国陆军2023最新报告

创造能够适应人类的人工智能队友的一个必要步骤是，开发能够向人工智能系统表达人类目标和意图的计算建模方法。用各种各样的方法来实现这个目标是可能的，从基于过去数据的纯粹预测模型到仅基于理论的生成模型。一种有希望的方法是所谓的从示范中学习的方法（Argall等人，2009；Ravichandar等人，2020），这种研究主旨是利用示范数据，如专家执行任务的行为，并训练模型（通常被称为 "智能体"）来执行专家的任务。在本报告中，我们采用了从示范中学习的方法来模拟和预测模拟机器人在避撞的团队任务中的行为。具体来说，我们采用了逆向强化学习（IRL）（Ng和Russell，2000年；Arora和Doshi，2021年），这是一种从演示中推断奖励函数的方法。

这项任务是基于一个研究性的视频游戏，被用来研究人类自主性的团队合作（Adamson等人，2017年），涉及一个由人类玩家和一个AI智能体共同控制的机器人。在没有玩家输入的情况下，AI智能体控制机器人，但玩家可以在任何时候推翻智能体，类似于现实世界中与自动驾驶助手一起驾驶的情况。这项任务对旨在模拟人类意图的示范学习方法提出了挑战，因为观察到的任务行为来自两个示范者的控制：一个是人类，一个是自动驾驶。例如，人类的行为可能是由对自己的目标的理解和对人工智能的目标的估计产生的。此外，当人工智能处于控制状态时，所有关于人类的信息都是他们不提供输入的，人类同意人工智能选择的程度是隐藏的。

我们对这一特定任务的关注是由我们的团队正在进行的工作所激发的，即利用激发这一任务的研究视频游戏从参与者那里收集数据。最终，我们将尝试模拟真实的人在长时间内的行为--每天玩180天--以促进适应性AI智能体的发展。这里描述的工作是对一种方法的验证，这种方法将推动我们的团队实现这一目标；然而，这种方法具有足够的通用性，其核心概念可以应用于其他地方。