用于解决模仿学习中因果混淆问题的察觉对象的正则化方法
Object-Aware Regularization for Addressing Causal Confusion in Imitation Learning
论文摘要:行为克隆是一种有效的从专家示范中学习策略的方法。然而,行为克隆常会产生因果混淆问题,即学到的策略关注的是专家动作的一个明显的结果而非专家动作的因(即专家策略所关注的对象)。针对此问题,本文提出了一个察觉对象的正则化方法,主要思想是鼓励待学策略去均匀地关注所有对象,以防它把注意力全部放在与专家动作强相关的干扰变量上。具体方法分为两个阶段:(a)我们利用量子化向量变分自编码器的离散编码从图片中提取有语义的对象,然后(b)随机地将具有相同离散编码值的编码分量一起丢弃,即掩盖掉该语义对象。实验表明所提方法显著提升了行为克隆的性能,并在各种 Atari 环境及 CARLA 自动驾驶环境中超过了各种其他正则化方法和基于因果的方法,甚至优于可与环境交互的逆强化学习方法。
https://www.zhuanzhi.ai/paper/53fb95a858607df85bb6d17b317fae15