模仿学习使智能体能够重用和适应他人来之不易的专业知识,为学习行为中的几个关键挑战提供了解决方案。虽然在现实世界中很容易观察行为,但可能无法访问底层操作。我们提出了一种新的方法,仅从观测中进行模仿,在具有挑战性的连续控制任务中达到与专家相当的性能,同时在与任务无关的观测存在时也表现出鲁棒性。我们的方法叫做FORM(“未来观察奖励模型”),它来自逆RL目标,并使用专家行为模型进行模拟,该模型是通过对专家观察的生成模型学习而来的,不需要地面的真实行动。我们的研究表明,在DeepMind Control Suite基准上,FORM的性能与强基线IRL方法(GAIL)相当,而在存在与任务无关的特征时,FORM的性能优于GAIL。

https://www.zhuanzhi.ai/paper/5f5ad56870b9585c4ecc0ee498604daa

成为VIP会员查看完整内容
23

相关内容

专知会员服务
32+阅读 · 2021年9月7日
专知会员服务
19+阅读 · 2021年8月30日
专知会员服务
34+阅读 · 2021年8月19日
专知会员服务
12+阅读 · 2021年7月2日
专知会员服务
24+阅读 · 2021年6月15日
【ICML2021】学习分子构象生成的梯度场
专知会员服务
14+阅读 · 2021年5月30日
专知会员服务
21+阅读 · 2021年5月27日
【ICML2021】来自观察的跨域模仿
专知会员服务
17+阅读 · 2021年5月25日
专知会员服务
81+阅读 · 2021年5月10日
【NeurIPS 2020】生成对抗性模仿学习的f-Divergence
专知会员服务
25+阅读 · 2020年10月9日
在稀疏和欠明确奖励中学习泛化
谷歌开发者
6+阅读 · 2019年3月20日
强化学习十大原则
专知
12+阅读 · 2018年9月17日
ICML2018 模仿学习教程
专知
6+阅读 · 2018年7月14日
Imitation by Predicting Observations
Arxiv
4+阅读 · 2021年7月8日
Arxiv
11+阅读 · 2020年12月2日
Arxiv
26+阅读 · 2018年8月19日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关VIP内容
专知会员服务
32+阅读 · 2021年9月7日
专知会员服务
19+阅读 · 2021年8月30日
专知会员服务
34+阅读 · 2021年8月19日
专知会员服务
12+阅读 · 2021年7月2日
专知会员服务
24+阅读 · 2021年6月15日
【ICML2021】学习分子构象生成的梯度场
专知会员服务
14+阅读 · 2021年5月30日
专知会员服务
21+阅读 · 2021年5月27日
【ICML2021】来自观察的跨域模仿
专知会员服务
17+阅读 · 2021年5月25日
专知会员服务
81+阅读 · 2021年5月10日
【NeurIPS 2020】生成对抗性模仿学习的f-Divergence
专知会员服务
25+阅读 · 2020年10月9日
相关论文
Imitation by Predicting Observations
Arxiv
4+阅读 · 2021年7月8日
Arxiv
11+阅读 · 2020年12月2日
Arxiv
26+阅读 · 2018年8月19日
Arxiv
11+阅读 · 2018年4月25日
微信扫码咨询专知VIP会员