创造能够适应人类的人工智能队友的一个必要步骤是,开发能够向人工智能系统表达人类目标和意图的计算建模方法。用各种各样的方法来实现这个目标是可能的,从基于过去数据的纯粹预测模型到仅基于理论的生成模型。一种有希望的方法是所谓的从示范中学习的方法(Argall等人,2009;Ravichandar等人,2020),这种研究主旨是利用示范数据,如专家执行任务的行为,并训练模型(通常被称为 "智能体")来执行专家的任务。在本报告中,我们采用了从示范中学习的方法来模拟和预测模拟机器人在避撞的团队任务中的行为。具体来说,我们采用了逆向强化学习(IRL)(Ng和Russell,2000年;Arora和Doshi,2021年),这是一种从演示中推断奖励函数的方法。

这项任务是基于一个研究性的视频游戏,被用来研究人类自主性的团队合作(Adamson等人,2017年),涉及一个由人类玩家和一个AI智能体共同控制的机器人。在没有玩家输入的情况下,AI智能体控制机器人,但玩家可以在任何时候推翻智能体,类似于现实世界中与自动驾驶助手一起驾驶的情况。这项任务对旨在模拟人类意图的示范学习方法提出了挑战,因为观察到的任务行为来自两个示范者的控制:一个是人类,一个是自动驾驶。例如,人类的行为可能是由对自己的目标的理解和对人工智能的目标的估计产生的。此外,当人工智能处于控制状态时,所有关于人类的信息都是他们不提供输入的,人类同意人工智能选择的程度是隐藏的。

我们对这一特定任务的关注是由我们的团队正在进行的工作所激发的,即利用激发这一任务的研究视频游戏从参与者那里收集数据。最终,我们将尝试模拟真实的人在长时间内的行为--每天玩180天--以促进适应性AI智能体的发展。这里描述的工作是对一种方法的验证,这种方法将推动我们的团队实现这一目标;然而,这种方法具有足够的通用性,其核心概念可以应用于其他地方。

成为VIP会员查看完整内容
61

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《机器人语言》美陆军5年项目46页技术总结报告,2023年
专知会员服务
38+阅读 · 2023年5月17日
《自适应自动化兵力生成的机器学习趋势》美国陆军
专知会员服务
42+阅读 · 2023年3月6日
《军事行动自动化》【译文】2022最新报告
专知会员服务
162+阅读 · 2022年11月12日
美陆军2022最新发布《美国陆军数据计划》,17页报告
专知会员服务
154+阅读 · 2022年10月17日
《军事行动自动化》【译文】2022最新报告
专知
56+阅读 · 2022年11月13日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
15+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
15+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员