Behavioral cloning has proven to be effective for learning sequential decision-making policies from expert demonstrations. However, behavioral cloning often suffers from the causal confusion problem where a policy relies on the noticeable effect of expert actions due to the strong correlation but not the cause we desire. This paper presents Object-aware REgularizatiOn (OREO), a simple technique that regularizes an imitation policy in an object-aware manner. Our main idea is to encourage a policy to uniformly attend to all semantic objects, in order to prevent the policy from exploiting nuisance variables strongly correlated with expert actions. To this end, we introduce a two-stage approach: (a) we extract semantic objects from images by utilizing discrete codes from a vector-quantized variational autoencoder, and (b) we randomly drop the units that share the same discrete code together, i.e., masking out semantic objects. Our experiments demonstrate that OREO significantly improves the performance of behavioral cloning, outperforming various other regularization and causality-based methods on a variety of Atari environments and a self-driving CARLA environment. We also show that our method even outperforms inverse reinforcement learning methods trained with a considerable amount of environment interaction.


翻译:实践证明,行为性克隆对于从专家演示中学习顺序决策政策是有效的,然而,行为性克隆往往具有因果混淆问题,因为一项政策依赖专家行动明显的影响,而这种影响是由于强烈的相互关系,而不是我们所希望的原因。本文介绍了一种简单的技术,即“Oor-aut-aware REgulalizatiOn ” (OREO),这种技术可以以目标认知的方式规范仿制政策。我们的主要想法是鼓励一项政策,即一致关注所有语义物体,以防止该政策利用与专家行动密切相关的骚扰变数。为此,我们采用了两阶段办法:(a) 我们从图像中提取语义物体,方法是从矢量定量的变异自动编码中提取,以及(b) 我们随机地丢弃了共同使用同一离异编码的单位,即遮掩静性物体。我们的实验表明,OREO大大改进了行为性克隆的性能,超越了与专家行动密切相关的各种其他基于因果关系的方法。为此,我们采用了一种两阶段的方法:(a)我们利用从不同环境中分离的自我强化方法,我们学习了相当程度的环境。

7
下载
关闭预览

相关内容

专知会员服务
94+阅读 · 2021年8月28日
专知会员服务
28+阅读 · 2020年11月4日
因果关联学习,Causal Relational Learning
专知会员服务
182+阅读 · 2020年4月21日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
浅谈主动学习(Active Learning)
凡人机器学习
31+阅读 · 2020年6月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
11+阅读 · 2018年4月27日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Arxiv
7+阅读 · 2021年5月25日
Arxiv
8+阅读 · 2021年5月20日
Arxiv
6+阅读 · 2020年12月8日
Arxiv
4+阅读 · 2020年3月19日
Arxiv
3+阅读 · 2018年10月5日
Relational Deep Reinforcement Learning
Arxiv
10+阅读 · 2018年6月28日
VIP会员
相关VIP内容
相关资讯
浅谈主动学习(Active Learning)
凡人机器学习
31+阅读 · 2020年6月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
11+阅读 · 2018年4月27日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Top
微信扫码咨询专知VIP会员