Triple-GAIL: A Multi-Modal Imitation Learning Framework with Generative Adversarial Nets
图3:Triple-GAIL框架
模仿学习是一种基于专家示教重建期望策略的方法,一直是AI领域的研究热点。为了提升模仿学习的通用性和在实际工程中的应用,相关的研究方向吸引了大量学术和工业界人士,其中利用多模态模仿学习提升模仿学习效果是重要的方向之一。例如,应用于自动驾驶中的驾驶行为学习,真实驾驶员示教数据由于驾驶技能和行为习惯的多样性呈现多种模态并服从不同的分布,如果直接利用行为克隆(Behavioral Cloning,BC)或逆向强化学习(Inverse Reinforcement Learning,IRL)容易导致模态坍塌问题(mode collapse problem),因缺乏发现和区分示教数据中的模态变化的能力。为了针对多模态示教数据进行有效的模仿,我们提出了一种基于生成对抗模仿学习(Generative Adversarial Imitation Learning,GAIL)的多模态模仿学习算法框架(图3),称为Triple-GAIL,通过对模态选择和行为模仿联合学习并利用模态选择器增量式生成数据促进模态区分优化模仿效果。Triple-GAIL在GAIL的基础上增加了一个模态选择器(Selector)用于区分多个模态,并和生成器(Generator)一起持续生成状态-动作-模态数据序列,达到数据增广的目的,而判别器(Discriminator)用于区分状态-动作-模态数据序列是否来自于专家示教数据。与已有多模态模仿学习方法相比,Triple-GAIL既可以直接通过指定模态生成行为轨迹,也可以直接利用模态选择器基于历史数据判断模态。
根据上述目标函数,我们从理论上证明了当且仅当 时,生成器和选择器能够同时收敛到各自的最优值,并在公开驾驶数据集(图4)和实时策略游戏中验证了Triple-GAIL相比其他方法能够更高效地学习到接近专家示教的多模态行为。文章链接:https://arxiv.org/abs/2005.10622。【诺亚决策推理RL研究团队与清华大学、南京大学联合研究工作】
图4:各种方法基于NGSIM数据集的驾驶行为学习效果对比
参考链接:
https://mp.weixin.qq.com/s/B5w7LsI7bAyY-drCY384LA
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“GANIL” 可以获取《【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架》专知下载链接索引