视频 | NeurIPS 2019分享：清华大学孙富春组提出全新模仿学习理论

2019 年 11 月 20 日 机器之心

机器之心发布

机器之心编辑部

在 NeurIPS 2019正式召开以前，机器之心精心策划了 NeurIPS 2019 专题，包括线上分享、论文解读、现场报道等内容。11月14日，第一期分享已经圆满结束。本文介绍的是「全新智能体观测模仿学习」，这是清华计算机系类脑计算与认知团队最新提出的一种学习理论，也是学界首次将生成式对抗方法推广到观测模仿学习中。

在上周四的第一期线上分享中，清华计算机系博士后黄文炳为大家详细解读了大会接收的这篇 Spotlight 论文《Imitation Learning from Observations by Minimizing Inverse Dynamics Disagreement》。

以下是本期视频回顾：

PPT下载：https://pan.baidu.com/s/1Zj59PAe4hYhDDh5zd4gWZg

引言

观测模仿学习（Imitation learning from observations）是示教学习（Learning from demonstrations，模仿学习）的前沿发展方向，目前的示教学习是在给出一定数量的专家（称为示教者）示教轨迹的前提下，通过监督学习、强化学习等机器学习方法训练智能体（称为学习者）控制策略，让智能体的行为尽可能与专家相似，进而使得智能体表现出专家行为的过程。

模仿学习主要分为两类，一类是行为克隆（Behavioral Clone），另一类是逆强化学习（Inverse Reinforcement Learning）, 标准的行为克隆方法是一类通过监督学习方法实现模仿学习的途径，是模仿学习中最简单最直观的方式，这类方法可以理解成智能体接受专家提供的示教样本并转换成状态-动作对形式，采用分类器（离散控制策略）或回归器（连续控制策略）拟合专家策略的过程。然而这类方法中智能体不进行环境交互与探索，训练的策略往往存在累积误差，而且性能受限于专家样本。

因此有更多的研究人员关注到通过逆强化学习实现示教学习问题，通过示教样本学习奖惩函数（动作好坏的规则），进而利用强化学习方法让智能体在学到的奖惩函数下探索环境并利用探索样本学习控制策略，学习性能在大多场景下往往超过行为克隆方法。

在逆强化学习实习的模仿学习中，GAIL[1] 算法首次将对抗训练机制引入模仿学习中，本文在 GAIL 的方法基础上，进一步探讨当专家示教不完备情况下如何完成模仿学习，特别是在实际机器人学习场景中最常见的【专家样本中不包含动作信息】情况，我们称这类模仿学习为观测模仿学习。本文理论上发现了观测模仿学习与常规的模仿学习之间的鸿沟差异，证明了该鸿沟差异存在优化上界，并提出了一种模型无关的优化方法。

模仿学习，特别是观测模仿学习，高效地让机器人学会人所掌握的技能或处理任务的能力，是未来智能机器人得以广泛应用的保证。

论文链接：https://arxiv.org/pdf/1910.04417.pdf
Website：https://sites.google.com/view/neurips19-iddm/home

方法

基于逆强化学习的模仿学习代表性工作 Generative Adversarial Imitation Learning (GAIL)，将对抗训练过程引入智能体模仿学习中，其中判别器用于区分智能体探索样本（Fake Sample）与专家样本（Real Sample），进而利用判别器描述的奖惩函数探索环境并通过强化学习训练智能体策略。提供专家样本为：

，其优化目标可以表示为：

其中

分别表示智能体与专家的状态 (s)-动作 (a) 的占用率度量（State-Action Occupancy Measure），是刻画控制策略对应表现行为的数学统计量，对于平稳随机过程，该占用率度量为唯一确定的统计量，

为计算 Kullback-Leibler (KL) 散度（文章附录部分进一步推导了 Jensen-Shannon (JS) 散度下的占用率度量逼近过程）。在 GAIL 论文中证明了最小化专家与学习者的占用率度量的 Jensen-Shannon (JS) 散度，可以有效解决模仿专家策略问题。

进一步地，当专家示教不完备情况下，考虑专家示教中不包含动作信息，即专家样本为：

，观测模仿学习的一种直观地改进优化方法 GAIfO [2] 为：

该优化目标直接将状态-动作占用率度量替换为状态转移占用率度量，在后面的证明中会说明这样的优化目标仅能适用于特定的动力学系统的情形，在更多的动力学系统情况下这样的优化方法将会失效。

具体步骤

首先，对于专家与智能体具有相同动力学系统的情形，可以证明观测模仿学习与常规的模仿学习之间存在一定的关联（证明过程请查看文章附录）：

定理1：如果智能体与专家之间共享相同的动力学系统模型，那么常规的模仿学习、朴素的观测模仿学习与逆动力学系统差异之间的关联可以表示成以下形式：

其中，

为专家与智能体的逆动力学系统概率分布的 KL 测度，这里称之为 Inverse dynamics disagreement（IDD）, 描述二者间的逆动力学系统差异程度，根据贝叶斯公式

，可以知道智能体的逆动力学系统

是与控制策略

有关的，因此逆动力学系统的差异也一定程度上刻画了专家与智能体的控制策略的差异，进一步分析，当智能体动力学系统的单射变换时，可以证明：

推论1：当动力学模型为单射变换时，朴素的观测模仿学习等效于常规的模仿学习 。

然后，建立了观测模仿学习与常规模仿学习的关系后，可以看出对于模仿学习问题，除了优化朴素的观测模仿学习目标（公式（2））外，还需要进一步去优化 IDD 这一项，可以证明 IDD 的优化上界可以表示为：

定理2：令分别代表智能体与专家的状态-动作占用率度量的信息熵，当最小化的时候：

其中，最大化信息熵

可以转换成最大化策略熵

与互信息

之和，具体推导可以查看论文公式（8-9）。

最后综合上述，推导出观测模仿学习问题的优化目标为：

实验

在实验中，研究者先设计了一个 GridWorld 的导航任务，用于说明 IDD 在观测模仿学习中的存在性，如下图所示，网格中相邻位置之间的转移动作方式由 1 到 11 种变化，当只有 1 种动作转移方式的时候，也就是环境的动力学为单射变换的情况，GAIL，GAIfO 以及本研究的方法表现相当的性能，与推论 1 中的结论一致，随着相邻位置之间的转移动作方式逐渐增多时，GAIfO 的性能逐渐下降，但本项研究的方法仍能较好提升观测模仿学习效果。

图 1.（右图）三个网格实验图分别表示在导航任务中即使在相同的路线下（代表状态转移分布一样 ），可能出现不同的动作方式。 （左图）三种方法在随着转移动作种类逐渐增多过程中，表现效果的变化趋势。注：GAIL 方法中是常规的模仿学习问题，示教样本中包含动作信息，属于 GAIfO 和本方法的理论上限。

另外，研究者在 Gym 下的 Mujoco 实验中 6 个任务中进一步验证了本研究方法的模仿效果，相比于其他观测模仿学习方法（关于其他观测模仿学习方法的具体介绍，可以查看论文的 Related Work 部分），本研究方法均取得了最好效果。更多消融实验与参数敏感性分析实验可以查看论文及论文附录。

表 1. 本研究方法与基准方法在标准的 Mujoco 实验环境下的 6 种 task 的定量表现结果，所有数值均为标准任务下的 reward 定义。其中 GAIfO-s*方法是将 GAIfO 方法中的状态转移占用率度量替换 为状态占用率度量的 朴素观测模仿学习方法。

图 2. 策略可视化运行结果图，左边为专家示教样本（通过强化学习训练得来），中间为朴素的观测模仿学习优化结果，右边是本研究方法的表现结果。

参考文献：

[1] Ho J, Ermon S. Generative adversarial imitation learning[C]//Advances in neural information processing systems. 2016: 4565-4573.

[2] Torabi F, Warnell G, Stone P. Generative adversarial imitation from observation[J]. arXiv preprint arXiv:1807.06158, 2018.

本届 NeurIPS，机器之心为读者们精心策划了 NeurIPS 2019 专题，包括线上分享、论文解读、现场报道等内容。本周四，机器之心 NeurIPS 2019 线上分享的第二期开始，我们邀请到了华为诺亚方舟实验室研究员许奕星为我们介绍模型压缩这一热门研究主题。

登录查看更多

相关内容

模仿学习

关注 322

模仿学习是学习尝试模仿专家行为从而获取最佳性能的一系列任务。目前主流方法包括监督式模仿学习、随机混合迭代学习和数据聚合模拟学习等方法。模仿学习（Imitation Learning）背后的原理是是通过隐含地给学习器关于这个世界的先验信息，比如执行、学习人类行为。在模仿学习任务中，智能体（agent）为了学习到策略从而尽可能像人类专家那样执行一种行为，它会寻找一种最佳的方式来使用由该专家示范的训练集（输入-输出对）。当智能体学习人类行为时，虽然我们也需要使用模仿学习，但实时的行为模拟成本会非常高。与之相反，吴恩达提出的学徒学习（Apprenticeship learning）执行的是存粹的贪婪/利用（exploitative）策略，并使用强化学习方法遍历所有的（状态和行为）轨迹（trajectories）来学习近优化策略。它需要极难的计略（maneuvers），而且几乎不可能从未观察到的状态还原。模仿学习能够处理这些未探索到的状态，所以可为自动驾驶这样的许多任务提供更可靠的通用框架。

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知会员服务

58+阅读 · 2020年5月26日

多智能体深度强化学习的若干关键科学问题

专知会员服务

193+阅读 · 2020年5月24日

人机对抗智能技术

专知会员服务

213+阅读 · 2020年5月3日

CMU-Ruslan 教授《深度学习基础：监督学习与生成模型》教程，127页ppt

专知会员服务

51+阅读 · 2020年2月14日