深度强化学习与模仿学习导论

具身智能体（如机器人和虚拟角色）必须持续选择动作以有效完成任务，从而求解复杂的序列决策问题。由于手动设计此类控制器十分困难，基于学习的方法逐渐成为有前景的替代方案，其中最具代表性的是深度强化学习（Deep Reinforcement Learning, DRL）和深度模仿学习（Deep Imitation Learning, DIL）。DRL 依靠奖励信号来优化行为，而 DIL 则利用专家示范来指导学习。本文档在具身智能体的背景下介绍 DRL 与 DIL，并采用简明而深入的文献讲解方式。文档是自包含的，会在需要时引入所有必要的数学与机器学习概念。它并非旨在成为该领域的综述文章，而是聚焦于一小部分基础算法与技术，强调深度理解而非广泛覆盖。内容范围从马尔可夫决策过程（MDP）到 DRL 中的 REINFORCE 与近端策略优化（Proximal Policy Optimization, PPO），以及从行为克隆（Behavioral Cloning）到数据集聚合（Dataset Aggregation, DAgger）和生成对抗模仿学习（Generative Adversarial Imitation Learning, GAIL）等 DIL 方法。 关键词： 深度强化学习，深度模仿学习，马尔可夫决策过程，REINFORCE，近端策略优化（PPO），行为克隆（BC），数据集聚合（DAgger），生成对抗模仿学习（GAIL）。具身智能体（例如机器人与虚拟角色）必须持续决定应采取何种动作，以有效执行任务。这一过程本质上是一个序列决策问题：智能体需要在时间维度上不断选择动作来控制自身的执行器，使其能够移动、感知并操控环境，最终完成所分配的任务。手动设计此类序列决策机制众所周知地困难重重。其挑战包括：构建能够解释智能体高维、多模态感知数据的特征提取器，以及设计从这些特征到执行器指令的最优非线性映射。在许多情况下，控制器还必须具备记忆能力，并主动管理感知过程本身，从而进一步增加了手工工程的复杂性。一种强有力的替代方案是依赖机器学习。基于学习的方法能够端到端构建控制策略，同时学习感知特征提取器以及从这些特征到执行器命令的映射。为此，这些方法需要一种反馈信号，用以指示智能体在执行任务（无论是行走、物体操作、导航，或其他技能）时表现的优劣。此类反馈通常由人类专家提供。在某些情境中，人类专家能够直接评估智能体的行为，为期望的动作给予正奖励、为不期望的动作给予负奖励。深度强化学习（Deep Reinforcement Learning）算法利用这一奖励信号来训练端到端控制策略。在其他情境中，专家通过示范来展示如何完成任务。智能体行为与专家示范之间的差异构成了强有力的学习信号，深度模仿学习（Deep Imitation Learning）算法便利用该信号训练端到端控制器。

1.1 概述

本文件旨在向读者介绍应用于具身智能体的深度强化学习（DRL）与深度模仿学习（DIL）。文档首先介绍马尔可夫决策过程（MDP）的形式化框架，并描述精确与近似的求解方法。在近似方法中，本文件将介绍经典算法 REINFORCE [21]，并重点讨论近端策略优化（Proximal Policy Optimization, PPO）[19]，这是当前最广泛使用且在控制具身智能体方面非常有效的强化学习算法之一。随后，文档将过渡到深度模仿学习，介绍三类基础方法：（a）行为克隆（Behavioral Cloning）[14, 1]；（b）其交互式扩展数据集聚合（Dataset Aggregation, DAgger）[15]；（c）生成对抗模仿学习（Generative Adversarial Imitation Learning, GAIL）[6]。

1.2 目标读者

本文件面向具有大学程度数学与计算机科学背景、希望学习应用于具身智能体的深度强化学习与深度模仿学习的学生与研究人员。尽管假设读者具备基本数学基础，本文件仍包含一章用于回顾理解后续内容所必需的核心数学原理。不要求机器学习的先验知识，因为所有必要概念将在其出现时引入。本文件旨在自包含：从数学到机器学习相关概念，均以循序渐进、教学友好的方式在需要时呈现。

1.3 内容范围

本文件源于作者编写的课程讲义，并采用简洁而深入（depth-first）的文献处理方式。其目的并非构成该领域的综述，而是刻意聚焦在一小部分基础算法与技术上，优先强调深入理解，而非广泛覆盖。这一选择基于如下理念：对核心方法的深刻理解，比起对大量现有与未来变体的表层性浏览，更能为独立学习更广泛内容打下坚实基础。

1.4 阅读指南

如果读者需要回顾概率论、信息论与微积分的基本原理，应从第 2 章（数学基础）开始。之后，可根据兴趣沿两条主要路径阅读文档，如下所述。 * 若读者对深度强化学习感兴趣，建议继续阅读第 3 章（马尔可夫决策过程）和第 4 章（深度强化学习）。若同时希望了解深度模仿学习，可继续阅读第 5 章（深度模仿学习）。这类读者也可以跳过第 5.1 节，该节提供了对第 3、4 章关键思想的简要回顾。 * 若读者主要对深度模仿学习感兴趣，而不关心深度强化学习，则可以直接阅读第 5 章（深度模仿学习）。如前所述，该章包含理解模仿学习算法所需的关键概念回顾。

1.5 延伸阅读

文档所述内容可由相关资源进一步补充，以帮助读者获得更深入的理论与实践理解。对于深度强化学习，Stable Baselines3（SB3）[17] 提供了广泛使用的强化学习算法的可靠 PyTorch 实现，是优秀的实验平台。此外，OpenAI 的教育资源 [13] 结合理论与实践，具有很高的学习价值。Sutton 与 Barto 的教材 [20] 依旧是该领域奠基且高度推荐的参考文献，系统介绍了强化学习原理与方法。对于深度模仿学习，多篇综述可用于扩展视野与理解历史背景 [7, 23, 22]，同时也有聚焦虚拟角色领域的特定综述 [12, 9]。实践资源方面，imitation 库 [2] 与 ML-Agents [8] 提供了基于 PyTorch 的多种现代模仿学习算法的实现。

**

成为VIP会员查看完整内容

相关内容

深度强化学习

关注 156

深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而，传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下，深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。

强化学习遇见大语言模型：贯穿 LLM 生命周期的进展与应用综述

专知会员服务

37+阅读 · 9月23日

【牛津博士论文】零样本强化学习综述

专知会员服务

29+阅读 · 8月25日

面向软件工程的强化学习综述

专知会员服务

26+阅读 · 7月21日

《可解释深度强化学习综述》

专知会员服务

39+阅读 · 2月12日