模仿学习的目的是从人类专家的演示或人工创造的代理中提取知识,以复制他们的行为。它已经成功在视频游戏、自动驾驶、机器人模拟和物体操纵等领域得到了证明。然而,这种复制过程可能会有问题,比如性能高度依赖于演示质量,并且大多数经过训练的代理在特定于任务的环境中只能表现良好。在本研究中,我们对模仿学习进行了系统的回顾。我们首先介绍了模仿学习的发展历史和初步的背景知识,然后介绍了模仿学习的不同分类和该领域的关键里程碑。然后,我们详细介绍学习策略中的挑战,并通过次优演示、语音指令和其他相关优化方案提供学习策略的研究机会。

https://www.zhuanzhi.ai/paper/ccc89d6d517a856cc909be399988e654

引言

模仿学习(IL),也被称为示范学习,通过模仿行为以一种相对简单的方法作出反应。它提取有用的知识来重现环境中的行为,类似于演示。人工智能的存在促进了自主控制系统的研究和人工智能代理的设计,因为它在现实场景中展示了良好的前景和训练策略的效率。深度学习、在线学习、生成对抗网络[23]等机器学习领域的最新发展使IL得到了进一步的改进,不仅缓解了现有的动态环境、频繁查询、高维计算等问题,而且实现了更快的收敛。更鲁棒的噪声和更有效的样本学习过程。这些改进促进了连续和离散控制领域的应用。例如,在连续控制领域,模仿学习可以应用于自动驾驶汽车操纵,在动态环境中重现适当的驾驶行为[11,13,14,22,31,52,53,80]。此外,模仿学习也应用于机器人,从基本的抓取和放置到手术辅助[21,37,43,46,48,49,67,79]。在离散控制领域,模仿学习对博弈论[5,19,24,55]、导航任务[28,62,76]、缓存管理[38]等领域做出了贡献。

值得注意的是,可以从人类专家或人工代理那里收集演示。在大多数情况下,演示是从人类专家那里收集的,但也有一些研究通过另一个人工代理获得演示。例如,Chen等人[13]提出了一个师生训练结构,他们用额外的信息训练一个教师代理,并使用这个经过训练的代理来教导一个没有额外信息的学生代理。这个过程不是多余的,使用来自其他代理的演示有助于训练过程,因为学生代理可以通过经常查询训练过的代理来推出自己的策略,并从类似的配置中学习策略,而经典IL需要克服运动学转移问题。

IL与强化学习(RL)有着密切的关系。IL和RL通常都解决了马尔科夫决策过程下的问题,RL中的TRPO[60]等改进也可以使IL受益,但它们以不同的方式再现了行为。与RL相比,IL更高效、更易访问和人机交互。在效率方面,与尝试和错误相比,IL代理通常花费更少的时间来通过使用演示作为指导产生所需的行为。就可访问性而言,在RL方法中实现自主行为需要熟悉问题设置的人类专家,以及硬编码的奖励功能,这些功能在某些情况下可能是不切实际的和非直觉的。例如,人们几乎是通过演示而不是数学函数来学习游泳和走路的,而且很难用数学来表述这些行为。IL还促进跨学科的集成,编程新手专家可以为设计和评估范例做出贡献。在人机交互方面,IL通过提供演示或偏好来加速学习过程,突出了人类的影响力,有效地利用和转移专家的知识。尽管IL具有上述优点,但它也面临着挑战和机遇,这一内容将在下面的章节中详细介绍。

  • 本研究在行为克隆vs.逆强化学习和无模型vs.基于模型三个类别下进行了模仿学习的研究。然后将IL研究归纳为两个新的类别,即低级任务与高级任务,BC、IRL与对抗性结构化IL,更适应IL的发展。

  • 第2部分全面描述了IL的演变,第3部分介绍了基本知识,第5部分介绍了最常见的学习框架。

  • 该综述提出了IL的剩余挑战,如学习不同的行为,利用各种演示和更好的表现。然后从迁移学习和重要抽样等方面探讨了未来的研究方向。

成为VIP会员查看完整内容
46

相关内容

模仿学习是学习尝试模仿专家行为从而获取最佳性能的一系列任务。目前主流方法包括监督式模仿学习、随机混合迭代学习和数据聚合模拟学习等方法。模仿学习(Imitation Learning)背后的原理是是通过隐含地给学习器关于这个世界的先验信息,比如执行、学习人类行为。在模仿学习任务中,智能体(agent)为了学习到策略从而尽可能像人类专家那样执行一种行为,它会寻找一种最佳的方式来使用由该专家示范的训练集(输入-输出对)。当智能体学习人类行为时,虽然我们也需要使用模仿学习,但实时的行为模拟成本会非常高。与之相反,吴恩达提出的学徒学习(Apprenticeship learning)执行的是存粹的贪婪/利用(exploitative)策略,并使用强化学习方法遍历所有的(状态和行为)轨迹(trajectories)来学习近优化策略。它需要极难的计略(maneuvers),而且几乎不可能从未观察到的状态还原。模仿学习能够处理这些未探索到的状态,所以可为自动驾驶这样的许多任务提供更可靠的通用框架。
专知会员服务
19+阅读 · 2021年8月30日
专知会员服务
24+阅读 · 2021年6月15日
专知会员服务
21+阅读 · 2021年5月27日
【NeurIPS 2020】生成对抗性模仿学习的f-Divergence
专知会员服务
25+阅读 · 2020年10月9日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
91+阅读 · 2020年9月28日
专知会员服务
29+阅读 · 2020年9月18日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
172+阅读 · 2020年2月8日
最新《分布式机器学习》论文综述最新DML进展,33页pdf
专知会员服务
118+阅读 · 2019年12月26日
【Science最新论文】XAI—可解释人工智能简述,机遇与挑战
专知会员服务
163+阅读 · 2019年12月21日
生成对抗网络的最新研究进展
AI科技评论
5+阅读 · 2019年2月6日
ICML2018 模仿学习教程
专知
6+阅读 · 2018年7月14日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
2017深度学习NLP进展与趋势
全球人工智能
5+阅读 · 2017年12月19日
Arxiv
5+阅读 · 2020年6月16日
Image Captioning based on Deep Reinforcement Learning
VIP会员
相关VIP内容
专知会员服务
19+阅读 · 2021年8月30日
专知会员服务
24+阅读 · 2021年6月15日
专知会员服务
21+阅读 · 2021年5月27日
【NeurIPS 2020】生成对抗性模仿学习的f-Divergence
专知会员服务
25+阅读 · 2020年10月9日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
91+阅读 · 2020年9月28日
专知会员服务
29+阅读 · 2020年9月18日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
172+阅读 · 2020年2月8日
最新《分布式机器学习》论文综述最新DML进展,33页pdf
专知会员服务
118+阅读 · 2019年12月26日
【Science最新论文】XAI—可解释人工智能简述,机遇与挑战
专知会员服务
163+阅读 · 2019年12月21日
微信扫码咨询专知VIP会员