创造能够适应人类同行的人工智能队友的一个必要步骤是开发能够向人工智能系统表达人类目标和意图的计算建模方法。用各种各样的方法来实现这个目标是可能的,从提供过去数据的纯粹预测的模型到仅基于理论的生成模型。一种有希望的方法是所谓的从示范中学习的方法(Argall等人,2009;Ravichandar等人,2020),这种研究主旨是利用示范数据,如专家执行任务的行为,并训练模型(通常被称为 "智能体")来执行专家的任务。在本报告中,我们采用了从示范中学习的方法来模拟和预测模拟机器人在避免碰撞的团队任务中的行为。具体来说,我们采用了逆向强化学习(IRL)(Ng和Russell,2000年;Arora和Doshi,2021年),这是一种从演示中推断奖励函数的方法。

这项任务是基于一个研究性的视频游戏,被用来研究人类-自主性的团队合作(Adamson等人,2017年),涉及一个由人类玩家和一个人工智能agent共同控制的机器人。在没有玩家输入的情况下,人工智能agent控制机器人,但玩家可以在任何时候推翻agent,类似于现实世界中与自动驾驶助手一起驾驶的情况。这项任务对旨在模拟人类意图的示范学习方法提出了挑战,因为观察到的任务行为来自两个示范者的控制:一个是人类,一个是自动驾驶。例如,人类的行为可能是由对自己的目标的理解和对人工智能的目标的估计产生的。此外,当人工智能处于控制状态时,所有关于人类的信息都是他们不提供输入的,人类对人工智能的选择的同意程度是隐藏的。

我们对这一特定任务的关注是由我们的团队正在进行的工作所激发的,即利用激发这一任务的研究视频游戏从参与者那里收集数据。最终,我们将尝试模拟真实的人在长时间内的行为--每天玩180天--以促进适应性AI代理的发展。这里描述的工作是对一种方法的验证,这种方法将推动我们的团队实现这一目标;然而,这种方法具有足够的通用性,其核心概念可以应用于其他地方。

成为VIP会员查看完整内容
30

相关内容

《人机协作的避撞决策模型》美国陆军2023最新报告
专知会员服务
63+阅读 · 2023年4月17日
《针对算法战的人工智能操作化》美陆军报告(译文)
专知会员服务
135+阅读 · 2023年1月14日
《军事行动自动化》【译文】2022最新报告
专知
58+阅读 · 2022年11月13日
戴着VR头盔教机器人抓握,机器人当场就学会了
机器之心
0+阅读 · 2022年10月21日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
5+阅读 · 2012年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
46+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年6月30日
Arxiv
31+阅读 · 2022年2月15日
Arxiv
58+阅读 · 2021年11月15日
Arxiv
24+阅读 · 2021年6月25日
Self-Driving Cars: A Survey
Arxiv
41+阅读 · 2019年1月14日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
5+阅读 · 2012年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
46+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员