【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

2020 年 5 月 26 日 专知

Triple-GAIL: A Multi-Modal Imitation Learning Framework with Generative Adversarial Nets

图3：Triple-GAIL框架

模仿学习是一种基于专家示教重建期望策略的方法，一直是AI领域的研究热点。为了提升模仿学习的通用性和在实际工程中的应用，相关的研究方向吸引了大量学术和工业界人士，其中利用多模态模仿学习提升模仿学习效果是重要的方向之一。例如，应用于自动驾驶中的驾驶行为学习，真实驾驶员示教数据由于驾驶技能和行为习惯的多样性呈现多种模态并服从不同的分布，如果直接利用行为克隆（Behavioral Cloning，BC）或逆向强化学习（Inverse Reinforcement Learning，IRL）容易导致模态坍塌问题（mode collapse problem），因缺乏发现和区分示教数据中的模态变化的能力。为了针对多模态示教数据进行有效的模仿，我们提出了一种基于生成对抗模仿学习（Generative Adversarial Imitation Learning，GAIL）的多模态模仿学习算法框架（图3），称为Triple-GAIL，通过对模态选择和行为模仿联合学习并利用模态选择器增量式生成数据促进模态区分优化模仿效果。Triple-GAIL在GAIL的基础上增加了一个模态选择器（Selector）用于区分多个模态，并和生成器（Generator）一起持续生成状态-动作-模态数据序列，达到数据增广的目的，而判别器（Discriminator）用于区分状态-动作-模态数据序列是否来自于专家示教数据。与已有多模态模仿学习方法相比，Triple-GAIL既可以直接通过指定模态生成行为轨迹，也可以直接利用模态选择器基于历史数据判断模态。

根据上述目标函数，我们从理论上证明了当且仅当时，生成器和选择器能够同时收敛到各自的最优值，并在公开驾驶数据集（图4）和实时策略游戏中验证了Triple-GAIL相比其他方法能够更高效地学习到接近专家示教的多模态行为。文章链接：https://arxiv.org/abs/2005.10622。【诺亚决策推理RL研究团队与清华大学、南京大学联合研究工作】

图4：各种方法基于NGSIM数据集的驾驶行为学习效果对比

参考链接：

https://mp.weixin.qq.com/s/B5w7LsI7bAyY-drCY384LA

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“GANIL” 可以获取《【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架》专知下载链接索引

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

相关内容

模仿学习

关注 322

模仿学习是学习尝试模仿专家行为从而获取最佳性能的一系列任务。目前主流方法包括监督式模仿学习、随机混合迭代学习和数据聚合模拟学习等方法。模仿学习（Imitation Learning）背后的原理是是通过隐含地给学习器关于这个世界的先验信息，比如执行、学习人类行为。在模仿学习任务中，智能体（agent）为了学习到策略从而尽可能像人类专家那样执行一种行为，它会寻找一种最佳的方式来使用由该专家示范的训练集（输入-输出对）。当智能体学习人类行为时，虽然我们也需要使用模仿学习，但实时的行为模拟成本会非常高。与之相反，吴恩达提出的学徒学习（Apprenticeship learning）执行的是存粹的贪婪/利用（exploitative）策略，并使用强化学习方法遍历所有的（状态和行为）轨迹（trajectories）来学习近优化策略。它需要极难的计略（maneuvers），而且几乎不可能从未观察到的状态还原。模仿学习能够处理这些未探索到的状态，所以可为自动驾驶这样的许多任务提供更可靠的通用框架。

【ICML2020】基于图感知逻辑回归和抢占式查询候选集生成的属性图上主动学习策略

专知会员服务

13+阅读 · 2020年7月9日

【ICML2020】用于强化学习的对比无监督表示嵌入

专知会员服务

28+阅读 · 2020年7月6日

【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架

专知会员服务

28+阅读 · 2020年5月25日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日