模仿学习的目的是从人类专家的演示或人工创造的代理中提取知识,以复制他们的行为。它已经成功在视频游戏、自动驾驶、机器人模拟和物体操纵等领域得到了证明。然而,这种复制过程可能会有问题,比如性能高度依赖于演示质量,并且大多数经过训练的代理在特定于任务的环境中只能表现良好。在本研究中,我们对模仿学习进行了系统的回顾。我们首先介绍了模仿学习的发展历史和初步的背景知识,然后介绍了模仿学习的不同分类和该领域的关键里程碑。然后,我们详细介绍学习策略中的挑战,并通过次优演示、语音指令和其他相关优化方案提供学习策略的研究机会。
https://www.zhuanzhi.ai/paper/ccc89d6d517a856cc909be399988e654
引言
模仿学习(IL),也被称为示范学习,通过模仿行为以一种相对简单的方法作出反应。它提取有用的知识来重现环境中的行为,类似于演示。人工智能的存在促进了自主控制系统的研究和人工智能代理的设计,因为它在现实场景中展示了良好的前景和训练策略的效率。深度学习、在线学习、生成对抗网络[23]等机器学习领域的最新发展使IL得到了进一步的改进,不仅缓解了现有的动态环境、频繁查询、高维计算等问题,而且实现了更快的收敛。更鲁棒的噪声和更有效的样本学习过程。这些改进促进了连续和离散控制领域的应用。例如,在连续控制领域,模仿学习可以应用于自动驾驶汽车操纵,在动态环境中重现适当的驾驶行为[11,13,14,22,31,52,53,80]。此外,模仿学习也应用于机器人,从基本的抓取和放置到手术辅助[21,37,43,46,48,49,67,79]。在离散控制领域,模仿学习对博弈论[5,19,24,55]、导航任务[28,62,76]、缓存管理[38]等领域做出了贡献。
值得注意的是,可以从人类专家或人工代理那里收集演示。在大多数情况下,演示是从人类专家那里收集的,但也有一些研究通过另一个人工代理获得演示。例如,Chen等人[13]提出了一个师生训练结构,他们用额外的信息训练一个教师代理,并使用这个经过训练的代理来教导一个没有额外信息的学生代理。这个过程不是多余的,使用来自其他代理的演示有助于训练过程,因为学生代理可以通过经常查询训练过的代理来推出自己的策略,并从类似的配置中学习策略,而经典IL需要克服运动学转移问题。
IL与强化学习(RL)有着密切的关系。IL和RL通常都解决了马尔科夫决策过程下的问题,RL中的TRPO[60]等改进也可以使IL受益,但它们以不同的方式再现了行为。与RL相比,IL更高效、更易访问和人机交互。在效率方面,与尝试和错误相比,IL代理通常花费更少的时间来通过使用演示作为指导产生所需的行为。就可访问性而言,在RL方法中实现自主行为需要熟悉问题设置的人类专家,以及硬编码的奖励功能,这些功能在某些情况下可能是不切实际的和非直觉的。例如,人们几乎是通过演示而不是数学函数来学习游泳和走路的,而且很难用数学来表述这些行为。IL还促进跨学科的集成,编程新手专家可以为设计和评估范例做出贡献。在人机交互方面,IL通过提供演示或偏好来加速学习过程,突出了人类的影响力,有效地利用和转移专家的知识。尽管IL具有上述优点,但它也面临着挑战和机遇,这一内容将在下面的章节中详细介绍。
本研究在行为克隆vs.逆强化学习和无模型vs.基于模型三个类别下进行了模仿学习的研究。然后将IL研究归纳为两个新的类别,即低级任务与高级任务,BC、IRL与对抗性结构化IL,更适应IL的发展。
第2部分全面描述了IL的演变,第3部分介绍了基本知识,第5部分介绍了最常见的学习框架。
该综述提出了IL的剩余挑战,如学习不同的行为,利用各种演示和更好的表现。然后从迁移学习和重要抽样等方面探讨了未来的研究方向。