模仿学习是一种基于专家示教重建期望策略的方法,一直是AI领域的研究热点。为了提升模仿学习的通用性和在实际工程中的应用,相关的研究方向吸引了大量学术和工业界人士,其中利用多模态模仿学习提升模仿学习效果是重要的方向之一。例如,应用于自动驾驶中的驾驶行为学习,真实驾驶员示教数据由于驾驶技能和行为习惯的多样性呈现多种模态并服从不同的分布,如果直接利用行为克隆(Behavioral Cloning,BC)或逆向强化学习(Inverse Reinforcement Learning,IRL)容易导致模态坍塌问题(mode collapse problem),因缺乏发现和区分示教数据中的模态变化的能力。为了针对多模态示教数据进行有效的模仿,我们提出了一种基于生成对抗模仿学习(Generative Adversarial Imitation Learning,GAIL)的多模态模仿学习算法框架(图3),称为Triple-GAIL,通过对模态选择和行为模仿联合学习并利用模态选择器增量式生成数据促进模态区分优化模仿效果。Triple-GAIL在GAIL的基础上增加了一个模态选择器(Selector)用于区分多个模态,并和生成器(Generator)一起持续生成状态-动作-模态数据序列,达到数据增广的目的,而判别器(Discriminator)用于区分状态-动作-模态数据序列是否来自于专家示教数据。与已有多模态模仿学习方法相比,Triple-GAIL既可以直接通过指定模态生成行为轨迹,也可以直接利用模态选择器基于历史数据判断模态。