模仿学习(Imitation Learning, IL)使智能体能够通过观察并复现一个或多个专家的行为来获得技能。近年来,深度学习的进步显著提升了模仿学习在各个领域中的能力与可扩展性,其中专家数据的形式可从完整的状态–动作轨迹扩展到部分观测或无标签序列。伴随着这一发展,众多新方法不断涌现,旨在应对长期存在的挑战,例如泛化能力不足、协变量偏移(covariate shift)以及示范数据质量问题。 在本综述中,我们回顾了模仿学习领域的最新研究进展,重点梳理了近期的研究趋势、方法学创新以及实际应用。我们提出了一种有别于现有分类方式的新型分类体系,以更好地反映当前模仿学习研究格局及其发展方向。贯穿全文,我们对具有代表性的研究工作进行了批判性分析,探讨其优缺点及评估实践,并总结了该领域面临的关键挑战与未来研究的开放方向。 1 引言 模仿(Imitation)长期以来一直是心理学研究的重要主题,其通常被定义为:个体在观察到他人或动物执行某种行为后,通过再现该行为而作出的反应 [10]。模仿行为广泛存在于历史与自然界中,并在生物进化或社会学习中扮演着至关重要的角色。它是一个涵盖面极广的概念,包含了各种不同层次的行为表现。 在人工智能与机器学习的语境下,模仿最初被定义为一类旨在在特定任务中模仿人类行为的技术方法 [32]。在这种设定下,一个人工智能体通过学习由人类提供的观测–动作映射关系来完成任务。随着研究的深入,从模仿中学习(Learning from Imitation)或模仿学习(Imitation Learning, IL)的概念逐渐超越了“仅从人类学习”的范畴。如今,它被更广泛地视为一种通过观察具有特定技能的其他智能体的行为(或更一般地说,通过这些行为相关的数据)来获取与发展新技能的方法 [9]。据此,可将模仿学习定义如下(见图1):
定义 1.1. 模仿学习(Imitation Learning, IL) 是一种学习范式,其中,智能体通过观察并模仿一个或多个(1...N)熟练智能体(统称为专家, expert)的行为来学习策略。专家提供一个行为相关数据集 𝐷,该数据可由若干种形式组成,例如: * 状态–动作对:𝐷 = {(𝑠𝑖, 𝑎𝑖)}𝑀 * 状态–动作–状态转移元组:𝐷 = {(𝑠𝑖, 𝑎𝑖; 𝑠′𝑖)}𝑀 * 状态–状态转移对:𝐷 = {(𝑠𝑖, 𝑠′𝑖)}𝑀 * 或其他监督信号。
在交互式环境下,学习智能体需利用该数据集去近似专家的行为策略 𝜋ₑ: 𝑆 → Δ(𝐴),其中 𝑆 表示环境的状态空间,𝐴 表示专家的动作空间。 本文采用上述定义。换言之,存在一个经验丰富的智能体(人类或非人类),我们称之为“专家(expert)”,其通过提供行为相关数据为学习智能体提供指导。学习智能体通过观察这些数据,学习模仿专家以完成任务。 值得注意的是,文献中还存在两个与此框架等价的常用术语(见表1): * Learning from Demonstration (LfD)(从示范中学习)[63, 46, 4, 57, 73] * Apprenticeship Learning(学徒式学习)[1, 2, 70] 但本文遵循主流用法,统一采用“模仿学习(Imitation Learning)”这一术语。
尽管模仿学习的定义在理论上看似直接明了,但在具体实践中却容易变得模糊不清。不同的假设——例如专家能够提供哪些信息——会导致智能体训练方式的显著差异。专家所提供的指导形式多样:既可能是包含完整状态–动作信息的第一人称演示,也可能是带噪声的第三人称视频观测,甚至是语言指令。每一种形式都对应着不同的学习策略和解释挑战。 此外,模仿学习还涉及智能体与专家之间的匹配程度问题:在某些任务中,智能体需完全复现专家的行为;而在另一些任务中,只需在行为或结果上达到一致即可。这一区别在算法设计上具有重要影响,因为它决定了优化目标与可接受的偏离程度。 在特定场景下,精确复现专家轨迹至关重要;而在另一些任务中,通过不同路径实现相同目标同样有效。此外,一些研究目标还超出了“模仿”的范畴,如在保持安全、效率或可解释性的同时优化性能或适应新环境约束等。这些扩展往往源于任务领域的特性或问题本身的普适性。由此可见,根据对专家、指导类型及学习目标的不同假设,模仿学习涵盖了多样化的算法与方法学方向。
模仿学习的目标虽然表面上明确,但常常引出一个核心疑问:一个仅靠模仿专家训练的智能体,如何可能匹敌甚至超越专家?
实际上,从设计上看,模仿学习并不以超越专家为目标,其主要任务是复现专家行为,而非发现新的或更优策略。然而,也存在一些例外研究 [14, 13, 61],试图在模仿基础上进一步优化或修正所学策略,以克服专家的次优表现。 即便如此,模仿学习仍具有多方面优势。 首先,它能实现人类策略向自主智能体的迁移,使智能体在决策时无需人类介入。其次,当专家为算法而非神经网络时,模仿学习能对其行为进行概括,从而提升泛化能力,应对比专家更大规模的问题实例。此外,通过学习专家行为模式,模型还能更好地应对专家未曾覆盖的新情境。 模仿学习的另一显著优势在于效率。算法型专家往往运行缓慢、占用大量内存、难以部署于实时或资源受限系统;而模仿学习得到的策略通常是一个固定规模、计算高效的神经网络。与需要长期交互与迭代奖励优化的强化学习(Reinforcement Learning, RL)[68]相比,模仿学习的训练过程更具监督性、收敛更快、计算成本更低。
本文避免使用“教师–学生(teacher–student)”这一术语,以防与知识蒸馏(Knowledge Distillation, KD) [29]混淆。 在知识蒸馏中,“教师”通常指一个神经网络,“学生”则学习去复现教师输出的概率分布(而非单一动作)。例如,在KD中,学生需拟合教师在所有可能动作上的置信度分布,而模仿学习仅模仿专家在给定状态下的具体选择。 举例而言,若一辆车在路口可选择左转或右转: * 模仿学习接收专家的“右转”决策作为硬标签; * 而知识蒸馏则提供一个软标签分布,如“右转80%”“左转20%”,并要求学生网络匹配该分布。
因此,为保持一致性,本文统一使用“专家(expert)”这一术语。
模仿学习的核心差异之一在于专家数据的形式。 若专家提供了访问过的状态及相应动作——即(𝑠, 𝑎)对,或(𝑠, 𝑎, 𝑠′)形式——我们称之为示范(demonstration)。此类研究属于显式模仿(Explicit Imitation),即智能体拥有对专家决策过程的完全访问权。 若专家仅提供状态序列或状态转移(𝑠, 𝑠′),而不公开动作,则称为隐式模仿(Implicit Imitation) [52, 54, 53, 14, 13],又称从观测中学习(Learning from Observation, LfO) [37, 71, 72, 44, 73, 33, 26]。此时,智能体需根据专家在环境中的移动方式推测其可能采取的动作。 另一方面,若目标从“如何(how)模仿专家”转向理解“为何(why)专家如此行为”,则问题演化为逆强化学习(Inverse Reinforcement Learning, IRL) [48]。 IRL 旨在推断解释专家行为的潜在奖励函数,并以此为代理重构专家策略。学习到奖励函数后,可用常规强化学习算法导出在新环境或新约束下也能达到相似(甚至更优)表现的策略 [22]。IRL 在可解释人工智能(Interpretable AI)中尤为重要,因为它帮助揭示决策背后的动机 [18]。 无论是显式、隐式模仿,还是IRL,另一个重要问题是:学习策略应在多大程度上忠实于专家行为?
由于专家可能并非最优,一些方法会显式地控制专家数据对训练的影响 [14, 13, 61, 67, 89],在模仿与修正之间寻求平衡。
近年来已有多篇模仿学习综述 [87, 32, 57, 73, 24, 15]。早期研究多从方法角度进行分类,如行为克隆(Behavioral Cloning)、逆强化学习等;也有工作聚焦于特定领域(如机器人)或特定问题(如从观测中学习)。 本文聚焦于近年(特别是2020年后)模仿学习的最新进展,并提出一种新的分类体系(taxonomy),以更好地反映该领域的当前研究重心与趋势。 我们的分类体系主要划分为三大方向: 1. 显式模仿(Explicit Imitation):专家同时提供状态与动作信息,包含
行为克隆(Behavioral Cloning):深度模仿学习的基础方法。 * 对抗式方法(Adversarial Methods):以GAIL(Generative Adversarial Imitation Learning)为代表的一系列基于对抗训练的扩展。 1. 隐式模仿(Implicit Imitation):专家仅提供状态转移数据,进一步细分为
基于模型的方法(Model-based),依赖逆动力学建模; * 无模型方法(Model-free),包括基于对抗与强化学习的策略学习。 1. 逆强化学习(Inverse Reinforcement Learning, IRL):通过推断专家的潜在奖励函数来实现模仿。
我们认为该体系更符合模仿学习的当代发展轨迹(如隐式模仿的快速兴起 [14, 13, 73, 26, 33]),并能为读者提供更清晰的研究脉络(见图3)。
本综述重点探讨模仿学习在真实世界适用性方面的最新进展,包括如何从有限或不完美示范中学习,以及如何提升在离线或受限环境中的稳定性。 全文结构如下: * 第2节:介绍基本概念与背景,包括历史脉络与典型应用。 * 第3节:讨论显式模仿方法,包括行为克隆与对抗式模仿学习。 * 第4节:介绍隐式模仿方法,区分基于模型与无模型的变体。 * 第5节:讨论逆强化学习方法,从“行为”转向“动机”的建模。 * 第6节:总结模仿学习面临的挑战与未来值得探索的研究方向。 * 第7节:总结全文贡献与核心启示。