【NeurIPS 2020】生成对抗性模仿学习的f-Divergence

2020 年 10 月 9 日 专知


模仿学习(IL)旨在从专家演示中学习一种策略,使学习者和专家行为之间的差异最小化。针对预先确定的差异,提出了不同的模仿学习算法来量化差异。这自然会产生以下问题:给定一组专家演示,哪些分歧可以在更高的数据效率下更准确地恢复专家策略?在这项研究中,我们提出了一种新的生成性对抗模仿学习(GAIL)模型——f-GAIL,它可以自动地从f-divergence族中学习出一个差异度量,并且能够产生与专家相似行为的策略。与具有各种预定义散度度量的IL基线相比,f-GAIL在6个基于物理的控制任务中学习了更好的策略和更高的数据效率。


https://arxiv.org/abs/2010.01207



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“GAIL” 可以获取《【NeurIPS 2020】生成对抗性模仿学习的f-Divergence》专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
0

相关内容

模仿学习是学习尝试模仿专家行为从而获取最佳性能的一系列任务。目前主流方法包括监督式模仿学习、随机混合迭代学习和数据聚合模拟学习等方法。模仿学习(Imitation Learning)背后的原理是是通过隐含地给学习器关于这个世界的先验信息,比如执行、学习人类行为。在模仿学习任务中,智能体(agent)为了学习到策略从而尽可能像人类专家那样执行一种行为,它会寻找一种最佳的方式来使用由该专家示范的训练集(输入-输出对)。当智能体学习人类行为时,虽然我们也需要使用模仿学习,但实时的行为模拟成本会非常高。与之相反,吴恩达提出的学徒学习(Apprenticeship learning)执行的是存粹的贪婪/利用(exploitative)策略,并使用强化学习方法遍历所有的(状态和行为)轨迹(trajectories)来学习近优化策略。它需要极难的计略(maneuvers),而且几乎不可能从未观察到的状态还原。模仿学习能够处理这些未探索到的状态,所以可为自动驾驶这样的许多任务提供更可靠的通用框架。
[NeurIPS 2020]对图神经网络更实际的对抗式攻击
专知会员服务
8+阅读 · 2020年11月1日
【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练
专知会员服务
14+阅读 · 2020年10月27日
【NeurIPS 2020 】神经网络结构生成优化
专知会员服务
19+阅读 · 2020年10月24日
最新《生成式对抗网络》简介,25页ppt
专知会员服务
167+阅读 · 2020年6月28日
【NeurIPS 2020】核基渐进蒸馏加法器神经网络
专知
13+阅读 · 2020年10月19日
【综述】生成式对抗网络GAN最新进展综述
专知
57+阅读 · 2019年6月5日
最新《生成式对抗网络GAN进展》论文
专知
94+阅读 · 2019年4月5日
ICML2018 模仿学习教程
专知
6+阅读 · 2018年7月14日
Arxiv
7+阅读 · 2018年6月8日
Arxiv
11+阅读 · 2018年1月15日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
相关VIP内容
相关论文
Top
微信扫码咨询专知VIP会员