NeurIPS 2020线上分享 | 南京大学直博生许天：模仿学习中行为克隆和对抗式方法的深度分析

2020 年 11 月 10 日 机器之心

不确定条件中的序列决策由于随机动力学和延迟反馈的影响而具有挑战性。强化学习和模仿学习都可以成为解决这类决策问题的方法。但是，与从延迟反馈中学习的强化学习（RL）相比，模仿学习（IL）从提供即时反馈的专家示例中学习，能够得到良好的策略，这在游戏、机器人控制以及自动驾驶等领域得到了证明。

而针对模仿学习的研究基于各自视角开发出了不同的算法，行为克隆（behavioral cloning, BC）即是其中一种。该算法通过监督学习最小化行动概率差异以达成策略学习。2016 年，斯坦福大学学者 Jonathan Ho 和 Stefano Ermon 在他们的论文《Generative Adversarial Imitation Learning》中提出了一种新颖的生成对抗式模仿学习 GAIL，其中判别器根据与专家示例的相似度为智能体行为评分，然后智能体学习将分数最大化，最终产生专家级别的行为。

虽然 GAIL 性能优于 BC 在很多研究中得到了验证，但其背后的理论解释却无法被人们充分地理解。近来也出现了试图理解 GAIL 泛化和计算性能的研究。在本期分享的这篇 NeurIPS 2020 论文中，来自南京大学等机构的研究者深入探讨了专家策略与 BC 和 GAIL 模仿策略之间价值差距的误差边界，以及这些方法中示例的复杂度。研究者认为，更丰富的判别器设置依然是减少策略价值差异所必需的，并且他们还从理论上证明了即使提供了不完整的轨迹，GAIL 同样能够很好地泛化。

不仅如此，在分析模仿策略的基础上，研究者进一步分析了模仿环境的误差边界。结果表明，相比于行为克隆，对抗式模仿能够更有效地学习环境模型，这也表明了一种基于模型的强化学习方向上的环境模型学习新思路。

在本期分享中，机器之心邀请到了论文一作、南京大学人工智能学院二年级博士生许天（Tian Xu），为我们详细解读模仿学习中的行为克隆和对抗式模仿。

分享主题： 关于模仿学习中行为克隆和对抗式方法的深度分析

分享嘉宾： 许天，南京大学人工智能学院计算机科学与技术专业的二年级直博生，导师是俞扬教授。他的研究方向是强化学习理论，目前关注模仿学习和基于模型的强化学习。

分享概要： 相比强化学习从试错中学习，模仿学习通过专家示例来学习策略，有着更高的样本效率。行为克隆和对抗式模仿是模仿学习中的两类重要算法，行为克隆将序列决策任务约简为监督学习任务，存在着误差累积的问题；对抗式模仿则将模仿学习建模为 minimax 问题，取得比行为克隆更好的实验效果，但缺乏理论保障。

本文中，我们从价值差距的角度，对行为克隆和对抗式模仿进行理论分析。结果表明行为克隆的价值差距与 MDP 有效长度是二次依赖，而对抗式模仿的价值差距是线性依赖，有更小的误差累积。值得注意的是，如果将环境模型看作是对偶智能体，模仿学习亦可以用来学习环境转移模型。因此，基于模仿策略的分析，我们更进一步分析了模仿环境时的两类算法的理论性能。分析结果表明，相比于行为克隆，对抗式模仿能够更有效地学习环境模型，这也表明了一种在基于模型的强化学习方向上的环境模型学习的新思路。

直播时间： 北京时间 11 月 12 日 20:00-21:00

论文链接：https://arxiv.org/abs/2010.11876

加入机动组，一起看直播

「机动组」是机器之心发起的人工智能技术社区，将持续提供技术公开课、论文分享、热门主题解读等线上线下活动，并在社群中提供每日精选论文与教程、智能技术研究周报，同时「机动组」也将不定期组织人才服务、产业技术对接等活动，欢迎所有 AI 领域技术从业者加入。

添加机器之心小助手（syncedai5），备注「2020」，加入本次直播群。

ps：如果小助手无法添加，请将「微信 ID」发送邮件到 dujiahao@jiqizhixin.com，我们将与你联系，邀你入群。

登录查看更多

相关内容

模仿学习

关注 322

模仿学习是学习尝试模仿专家行为从而获取最佳性能的一系列任务。目前主流方法包括监督式模仿学习、随机混合迭代学习和数据聚合模拟学习等方法。模仿学习（Imitation Learning）背后的原理是是通过隐含地给学习器关于这个世界的先验信息，比如执行、学习人类行为。在模仿学习任务中，智能体（agent）为了学习到策略从而尽可能像人类专家那样执行一种行为，它会寻找一种最佳的方式来使用由该专家示范的训练集（输入-输出对）。当智能体学习人类行为时，虽然我们也需要使用模仿学习，但实时的行为模拟成本会非常高。与之相反，吴恩达提出的学徒学习（Apprenticeship learning）执行的是存粹的贪婪/利用（exploitative）策略，并使用强化学习方法遍历所有的（状态和行为）轨迹（trajectories）来学习近优化策略。它需要极难的计略（maneuvers），而且几乎不可能从未观察到的状态还原。模仿学习能够处理这些未探索到的状态，所以可为自动驾驶这样的许多任务提供更可靠的通用框架。