用于解决模仿学习中因果混淆问题的察觉对象的正则化方法

Object-Aware Regularization for Addressing Causal Confusion in Imitation Learning

论文摘要:行为克隆是一种有效的从专家示范中学习策略的方法。然而,行为克隆常会产生因果混淆问题,即学到的策略关注的是专家动作的一个明显的结果而非专家动作的因(即专家策略所关注的对象)。针对此问题,本文提出了一个察觉对象的正则化方法,主要思想是鼓励待学策略去均匀地关注所有对象,以防它把注意力全部放在与专家动作强相关的干扰变量上。具体方法分为两个阶段:(a)我们利用量子化向量变分自编码器的离散编码从图片中提取有语义的对象,然后(b)随机地将具有相同离散编码值的编码分量一起丢弃,即掩盖掉该语义对象。实验表明所提方法显著提升了行为克隆的性能,并在各种 Atari 环境及 CARLA 自动驾驶环境中超过了各种其他正则化方法和基于因果的方法,甚至优于可与环境交互的逆强化学习方法。

https://www.zhuanzhi.ai/paper/53fb95a858607df85bb6d17b317fae15

成为VIP会员查看完整内容
18

相关内容

模仿学习是学习尝试模仿专家行为从而获取最佳性能的一系列任务。目前主流方法包括监督式模仿学习、随机混合迭代学习和数据聚合模拟学习等方法。模仿学习(Imitation Learning)背后的原理是是通过隐含地给学习器关于这个世界的先验信息,比如执行、学习人类行为。在模仿学习任务中,智能体(agent)为了学习到策略从而尽可能像人类专家那样执行一种行为,它会寻找一种最佳的方式来使用由该专家示范的训练集(输入-输出对)。当智能体学习人类行为时,虽然我们也需要使用模仿学习,但实时的行为模拟成本会非常高。与之相反,吴恩达提出的学徒学习(Apprenticeship learning)执行的是存粹的贪婪/利用(exploitative)策略,并使用强化学习方法遍历所有的(状态和行为)轨迹(trajectories)来学习近优化策略。它需要极难的计略(maneuvers),而且几乎不可能从未观察到的状态还原。模仿学习能够处理这些未探索到的状态,所以可为自动驾驶这样的许多任务提供更可靠的通用框架。
【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习
专知会员服务
48+阅读 · 2021年12月20日
【NeurIPS2021】学习用于分布外预测的因果语义表示
专知会员服务
17+阅读 · 2021年11月19日
【NeurIPS2021】用于视频分割的密集无监督学习
专知会员服务
14+阅读 · 2021年11月14日
【NeurIPS2021】用于物体检测的实例条件知识蒸馏
专知会员服务
19+阅读 · 2021年11月10日
专知会员服务
19+阅读 · 2021年8月30日
专知会员服务
23+阅读 · 2021年7月10日
专知会员服务
21+阅读 · 2021年5月27日
专知会员服务
29+阅读 · 2021年4月5日
如何解决稀疏奖励下的强化学习?
机器之心
4+阅读 · 2020年7月6日
经典书《斯坦福大学-多智能体系统》532页pdf
Continual Unsupervised Representation Learning
Arxiv
7+阅读 · 2019年10月31日
Arxiv
6+阅读 · 2018年5月18日
VIP会员
相关VIP内容
【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习
专知会员服务
48+阅读 · 2021年12月20日
【NeurIPS2021】学习用于分布外预测的因果语义表示
专知会员服务
17+阅读 · 2021年11月19日
【NeurIPS2021】用于视频分割的密集无监督学习
专知会员服务
14+阅读 · 2021年11月14日
【NeurIPS2021】用于物体检测的实例条件知识蒸馏
专知会员服务
19+阅读 · 2021年11月10日
专知会员服务
19+阅读 · 2021年8月30日
专知会员服务
23+阅读 · 2021年7月10日
专知会员服务
21+阅读 · 2021年5月27日
专知会员服务
29+阅读 · 2021年4月5日
微信扫码咨询专知VIP会员