【NeurIPS2021】用于解决模仿学习中因果混淆问题的察觉对象的正则化方法

用于解决模仿学习中因果混淆问题的察觉对象的正则化方法

Object-Aware Regularization for Addressing Causal Confusion in Imitation Learning

论文摘要：行为克隆是一种有效的从专家示范中学习策略的方法。然而，行为克隆常会产生因果混淆问题，即学到的策略关注的是专家动作的一个明显的结果而非专家动作的因（即专家策略所关注的对象）。针对此问题，本文提出了一个察觉对象的正则化方法，主要思想是鼓励待学策略去均匀地关注所有对象，以防它把注意力全部放在与专家动作强相关的干扰变量上。具体方法分为两个阶段：（a）我们利用量子化向量变分自编码器的离散编码从图片中提取有语义的对象，然后（b）随机地将具有相同离散编码值的编码分量一起丢弃，即掩盖掉该语义对象。实验表明所提方法显著提升了行为克隆的性能，并在各种 Atari 环境及 CARLA 自动驾驶环境中超过了各种其他正则化方法和基于因果的方法，甚至优于可与环境交互的逆强化学习方法。

https://www.zhuanzhi.ai/paper/53fb95a858607df85bb6d17b317fae15

成为VIP会员查看完整内容

相关内容

模仿学习

关注 322

模仿学习是学习尝试模仿专家行为从而获取最佳性能的一系列任务。目前主流方法包括监督式模仿学习、随机混合迭代学习和数据聚合模拟学习等方法。模仿学习（Imitation Learning）背后的原理是是通过隐含地给学习器关于这个世界的先验信息，比如执行、学习人类行为。在模仿学习任务中，智能体（agent）为了学习到策略从而尽可能像人类专家那样执行一种行为，它会寻找一种最佳的方式来使用由该专家示范的训练集（输入-输出对）。当智能体学习人类行为时，虽然我们也需要使用模仿学习，但实时的行为模拟成本会非常高。与之相反，吴恩达提出的学徒学习（Apprenticeship learning）执行的是存粹的贪婪/利用（exploitative）策略，并使用强化学习方法遍历所有的（状态和行为）轨迹（trajectories）来学习近优化策略。它需要极难的计略（maneuvers），而且几乎不可能从未观察到的状态还原。模仿学习能够处理这些未探索到的状态，所以可为自动驾驶这样的许多任务提供更可靠的通用框架。

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【NeurIPS2021】学习用于分布外预测的因果语义表示

专知会员服务

18+阅读 · 2021年11月19日

【NeurIPS2021】用于视频分割的密集无监督学习

专知会员服务

15+阅读 · 2021年11月14日

【NeurIPS2021】用于物体检测的实例条件知识蒸馏

专知会员服务

20+阅读 · 2021年11月10日