模仿学习使智能体能够重用和适应他人来之不易的专业知识,为学习行为中的几个关键挑战提供了解决方案。虽然在现实世界中很容易观察行为,但可能无法访问底层操作。我们提出了一种新的方法,仅从观测中进行模仿,在具有挑战性的连续控制任务中达到与专家相当的性能,同时在与任务无关的观测存在时也表现出鲁棒性。我们的方法叫做FORM(“未来观察奖励模型”),它来自逆RL目标,并使用专家行为模型进行模拟,该模型是通过对专家观察的生成模型学习而来的,不需要地面的真实行动。我们的研究表明,在DeepMind Control Suite基准上,FORM的性能与强基线IRL方法(GAIL)相当,而在存在与任务无关的特征时,FORM的性能优于GAIL。
https://www.zhuanzhi.ai/paper/5f5ad56870b9585c4ecc0ee498604daa