论文题目: A Divergence Minimization Perspective on Imitation Learning Methods

论文摘要: 在许多情况下,希望通过专家演示的学习或引导来学习决策和控制策略。这种模仿学习(IL)框架下最常见的方法是行为克隆(BC)和逆强化学习(IRL)。IRL的最新方法已经证明了可以通过访问非常有限的一组演示来学习有效策略的能力,一种情况BC方法经常失败。不幸的是,由于变化的多种因素,直接比较这些方法并不能提供足够的直觉来理解这种性能差异。在这项工作中,我们提出了基于散度最小化的IL算法的统一概率观点。我们提出了f-MAX,这是AIRL的一种泛化概括,它是一种最新的IRL方法。 f-MAX使我们能够关联以前的IRL方法,例如GAIL和AIRL,并了解它们的算法特性。通过散度最小化的镜头,我们可以找出BC和成功的IRL方法之间的差异,并在模拟的高维连续控制域上经验地评估这些细微差别。我们的发现最终确定了IRL的州际匹配目标是其卓越绩效的最大贡献。最后,我们将对IL方法的新理解应用于状态-边际匹配的问题,其中我们证明了在模拟推臂环境中,我们可以使用简单的手动指定状态分布来教给代理各种行为,而无需奖励函数或专家。

论文作者: Richard Zemel ,Vector人工智能研究所的联合创始人兼研究总监,多伦多大学机器学习工业研究主席,加拿大高级研究所高级研究员,研究兴趣包括:图像和文本的生成模型,基于图的机器学习,少量数据学习,词典,单词列表和公平性。

github链接: https://github.com/KamyarGh/rl_swiss/blob/master/reproducing/fmax_paper.md

成为VIP会员查看完整内容
23

相关内容

用已知某种或某些特性的样本作为训练集,以建立一个数学模型(如模式识别中的判别模型,人工神经网络法中的权重模型等),再用已建立的模型来预测未知样本,此种方法称为有监督学习。是最常见的机器学习方法。
【ICML2020】用于强化学习的对比无监督表示嵌入
专知会员服务
27+阅读 · 2020年7月6日
【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
90+阅读 · 2020年7月4日
【斯坦福大学】Gradient Surgery for Multi-Task Learning
专知会员服务
46+阅读 · 2020年1月23日
专知会员服务
53+阅读 · 2019年12月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
强化学习十大原则
专知
12+阅读 · 2018年9月17日
Ian Goodfellow:你的GAN水平我来打分
机器之心
4+阅读 · 2018年8月17日
ICML2018 模仿学习教程
专知
6+阅读 · 2018年7月14日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
蒙特卡罗方法(Monte Carlo Methods)
数据挖掘入门与实战
6+阅读 · 2018年4月22日
Meta-Learning with Implicit Gradients
Arxiv
13+阅读 · 2019年9月10日
Arxiv
3+阅读 · 2018年10月11日
Arxiv
5+阅读 · 2018年4月22日
VIP会员
相关资讯
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
强化学习十大原则
专知
12+阅读 · 2018年9月17日
Ian Goodfellow:你的GAN水平我来打分
机器之心
4+阅读 · 2018年8月17日
ICML2018 模仿学习教程
专知
6+阅读 · 2018年7月14日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
蒙特卡罗方法(Monte Carlo Methods)
数据挖掘入门与实战
6+阅读 · 2018年4月22日
微信扫码咨询专知VIP会员