模仿学习: 进展，分类和机会

模仿学习的目的是从人类专家的演示或人工创造的代理中提取知识，以复制他们的行为。它已经成功在视频游戏、自动驾驶、机器人模拟和物体操纵等领域得到了证明。然而，这种复制过程可能会有问题，比如性能高度依赖于演示质量，并且大多数经过训练的代理在特定于任务的环境中只能表现良好。在本研究中，我们对模仿学习进行了系统的回顾。我们首先介绍了模仿学习的发展历史和初步的背景知识，然后介绍了模仿学习的不同分类和该领域的关键里程碑。然后，我们详细介绍学习策略中的挑战，并通过次优演示、语音指令和其他相关优化方案提供学习策略的研究机会。

https://www.zhuanzhi.ai/paper/ccc89d6d517a856cc909be399988e654

引言

模仿学习(IL)，也被称为示范学习，通过模仿行为以一种相对简单的方法作出反应。它提取有用的知识来重现环境中的行为，类似于演示。人工智能的存在促进了自主控制系统的研究和人工智能代理的设计，因为它在现实场景中展示了良好的前景和训练策略的效率。深度学习、在线学习、生成对抗网络[23]等机器学习领域的最新发展使IL得到了进一步的改进，不仅缓解了现有的动态环境、频繁查询、高维计算等问题，而且实现了更快的收敛。更鲁棒的噪声和更有效的样本学习过程。这些改进促进了连续和离散控制领域的应用。例如，在连续控制领域，模仿学习可以应用于自动驾驶汽车操纵，在动态环境中重现适当的驾驶行为[11,13,14,22,31,52,53,80]。此外，模仿学习也应用于机器人，从基本的抓取和放置到手术辅助[21,37,43,46,48,49,67,79]。在离散控制领域，模仿学习对博弈论[5,19,24,55]、导航任务[28,62,76]、缓存管理[38]等领域做出了贡献。

值得注意的是，可以从人类专家或人工代理那里收集演示。在大多数情况下，演示是从人类专家那里收集的，但也有一些研究通过另一个人工代理获得演示。例如，Chen等人[13]提出了一个师生训练结构，他们用额外的信息训练一个教师代理，并使用这个经过训练的代理来教导一个没有额外信息的学生代理。这个过程不是多余的，使用来自其他代理的演示有助于训练过程，因为学生代理可以通过经常查询训练过的代理来推出自己的策略，并从类似的配置中学习策略，而经典IL需要克服运动学转移问题。

IL与强化学习(RL)有着密切的关系。IL和RL通常都解决了马尔科夫决策过程下的问题，RL中的TRPO[60]等改进也可以使IL受益，但它们以不同的方式再现了行为。与RL相比，IL更高效、更易访问和人机交互。在效率方面，与尝试和错误相比，IL代理通常花费更少的时间来通过使用演示作为指导产生所需的行为。就可访问性而言，在RL方法中实现自主行为需要熟悉问题设置的人类专家，以及硬编码的奖励功能，这些功能在某些情况下可能是不切实际的和非直觉的。例如，人们几乎是通过演示而不是数学函数来学习游泳和走路的，而且很难用数学来表述这些行为。IL还促进跨学科的集成，编程新手专家可以为设计和评估范例做出贡献。在人机交互方面，IL通过提供演示或偏好来加速学习过程，突出了人类的影响力，有效地利用和转移专家的知识。尽管IL具有上述优点，但它也面临着挑战和机遇，这一内容将在下面的章节中详细介绍。

本研究在行为克隆vs.逆强化学习和无模型vs.基于模型三个类别下进行了模仿学习的研究。然后将IL研究归纳为两个新的类别，即低级任务与高级任务，BC、IRL与对抗性结构化IL，更适应IL的发展。
第2部分全面描述了IL的演变，第3部分介绍了基本知识，第5部分介绍了最常见的学习框架。
该综述提出了IL的剩余挑战，如学习不同的行为，利用各种演示和更好的表现。然后从迁移学习和重要抽样等方面探讨了未来的研究方向。

成为VIP会员查看完整内容

相关内容

模仿学习

关注 322

模仿学习是学习尝试模仿专家行为从而获取最佳性能的一系列任务。目前主流方法包括监督式模仿学习、随机混合迭代学习和数据聚合模拟学习等方法。模仿学习（Imitation Learning）背后的原理是是通过隐含地给学习器关于这个世界的先验信息，比如执行、学习人类行为。在模仿学习任务中，智能体（agent）为了学习到策略从而尽可能像人类专家那样执行一种行为，它会寻找一种最佳的方式来使用由该专家示范的训练集（输入-输出对）。当智能体学习人类行为时，虽然我们也需要使用模仿学习，但实时的行为模拟成本会非常高。与之相反，吴恩达提出的学徒学习（Apprenticeship learning）执行的是存粹的贪婪/利用（exploitative）策略，并使用强化学习方法遍历所有的（状态和行为）轨迹（trajectories）来学习近优化策略。它需要极难的计略（maneuvers），而且几乎不可能从未观察到的状态还原。模仿学习能够处理这些未探索到的状态，所以可为自动驾驶这样的许多任务提供更可靠的通用框架。

【ICML2021】基于观察的跨域模仿学习

专知会员服务

20+阅读 · 2021年8月30日

【ICML2021】策略梯度贝叶斯鲁棒优化的模仿学习

专知会员服务

25+阅读 · 2021年6月15日

【ICML2021】模仿学习的超参数选择

专知会员服务

22+阅读 · 2021年5月27日