论文题目: A Divergence Minimization Perspective on Imitation Learning Methods
论文摘要: 在许多情况下,希望通过专家演示的学习或引导来学习决策和控制策略。这种模仿学习(IL)框架下最常见的方法是行为克隆(BC)和逆强化学习(IRL)。IRL的最新方法已经证明了可以通过访问非常有限的一组演示来学习有效策略的能力,一种情况BC方法经常失败。不幸的是,由于变化的多种因素,直接比较这些方法并不能提供足够的直觉来理解这种性能差异。在这项工作中,我们提出了基于散度最小化的IL算法的统一概率观点。我们提出了f-MAX,这是AIRL的一种泛化概括,它是一种最新的IRL方法。 f-MAX使我们能够关联以前的IRL方法,例如GAIL和AIRL,并了解它们的算法特性。通过散度最小化的镜头,我们可以找出BC和成功的IRL方法之间的差异,并在模拟的高维连续控制域上经验地评估这些细微差别。我们的发现最终确定了IRL的州际匹配目标是其卓越绩效的最大贡献。最后,我们将对IL方法的新理解应用于状态-边际匹配的问题,其中我们证明了在模拟推臂环境中,我们可以使用简单的手动指定状态分布来教给代理各种行为,而无需奖励函数或专家。
论文作者: Richard Zemel ,Vector人工智能研究所的联合创始人兼研究总监,多伦多大学机器学习工业研究主席,加拿大高级研究所高级研究员,研究兴趣包括:图像和文本的生成模型,基于图的机器学习,少量数据学习,词典,单词列表和公平性。
github链接: https://github.com/KamyarGh/rl_swiss/blob/master/reproducing/fmax_paper.md