论文题目:Learning to Weight Imperfect Demonstrations (ICML 2021)
作者:Yunke Wang, Chang Xu, Bo Du, Honglak Lee
论文概述:这篇论文主要解决的问题是如何在生成对抗模仿学习(GAIL)中为不完美专家演示加权。模仿学习期望智能体通过模仿专家的行为来进行学习,然而在许多现实世界的任务中专家也会犯错,由此产生的不完美专家演示将会严重误导智能体的学习。目前,已有的一些基于加权和偏好学习的解决不完美专家演示的方法往往依赖额外的先验信息,无法在更普遍和通用的模仿学习设置下使用。因此,本文提出了一种在生成对抗模仿学习的框架下为专家演示自动生成权重的方法,通过严格的数学证明,我们发现专家演示的权重可以在训练中由GAIL中的判别器和智能体策略估算得到。理论分析显示,当我们使用该估算的权重,智能体事实上在学习一个比原始给定的专家策略更优的策略。在Mujoco和Atari上的实验结果显示了算法的优越性。