【NeurIPS2021】用于解决模仿学习中因果混淆问题的察觉对象的正则化方法

2021 年 11 月 22 日 专知


用于解决模仿学习中因果混淆问题的察觉对象的正则化方法

Object-Aware Regularization for Addressing Causal Confusion in Imitation Learning


论文摘要:行为克隆是一种有效的从专家示范中学习策略的方法。然而,行为克隆常会产生因果混淆问题,即学到的策略关注的是专家动作的一个明显的结果而非专家动作的因(即专家策略所关注的对象)。针对此问题,本文提出了一个察觉对象的正则化方法,主要思想是鼓励待学策略去均匀地关注所有对象,以防它把注意力全部放在与专家动作强相关的干扰变量上。具体方法分为两个阶段:(a)我们利用量子化向量变分自编码器的离散编码从图片中提取有语义的对象,然后(b)随机地将具有相同离散编码值的编码分量一起丢弃,即掩盖掉该语义对象。实验表明所提方法显著提升了行为克隆的性能,并在各种 Atari 环境及 CARLA 自动驾驶环境中超过了各种其他正则化方法和基于因果的方法,甚至优于可与环境交互的逆强化学习方法。


https://www.zhuanzhi.ai/paper/53fb95a858607df85bb6d17b317fae15



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“CCIL” 就可以获取【NeurIPS2021】用于解决模仿学习中因果混淆问题的察觉对象的正则化方法》专知下载链接

专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!


欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
1

相关内容

【NeurIPS2021】基于关联与识别的少样本目标检测
专知会员服务
21+阅读 · 2021年11月29日
【NeurIPS2021】用于物体检测的实例条件知识蒸馏
专知会员服务
19+阅读 · 2021年11月10日
专知会员服务
19+阅读 · 2021年8月30日
专知会员服务
23+阅读 · 2021年7月10日
专知会员服务
46+阅读 · 2021年7月2日
专知会员服务
21+阅读 · 2021年5月27日
【CVPR2021】现实世界域泛化的自适应方法
专知会员服务
55+阅读 · 2021年3月31日
【NeurIPS2020】因果推断学习教程,70页ppt
专知会员服务
190+阅读 · 2020年12月12日
【CVPR2020-Oral】用于深度网络的任务感知超参数
专知会员服务
26+阅读 · 2020年5月25日
时间序列预测方法综述
专知
5+阅读 · 2020年12月15日
【NeurIPS 2020】核基渐进蒸馏加法器神经网络
专知
13+阅读 · 2020年10月19日
【NeurIPS2020】无限可能的联合对比学习
专知
3+阅读 · 2020年10月2日
【ICML2020】小样本目标检测
专知
7+阅读 · 2020年6月2日
Arxiv
0+阅读 · 2022年2月3日
OnlineSTL: Scaling Time Series Decomposition by 100x
Imitation by Predicting Observations
Arxiv
4+阅读 · 2021年7月8日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关VIP内容
【NeurIPS2021】基于关联与识别的少样本目标检测
专知会员服务
21+阅读 · 2021年11月29日
【NeurIPS2021】用于物体检测的实例条件知识蒸馏
专知会员服务
19+阅读 · 2021年11月10日
专知会员服务
19+阅读 · 2021年8月30日
专知会员服务
23+阅读 · 2021年7月10日
专知会员服务
46+阅读 · 2021年7月2日
专知会员服务
21+阅读 · 2021年5月27日
【CVPR2021】现实世界域泛化的自适应方法
专知会员服务
55+阅读 · 2021年3月31日
【NeurIPS2020】因果推断学习教程,70页ppt
专知会员服务
190+阅读 · 2020年12月12日
【CVPR2020-Oral】用于深度网络的任务感知超参数
专知会员服务
26+阅读 · 2020年5月25日
Top
微信扫码咨询专知VIP会员