【导读】MIT科学家Dimitri P. Bertsekas在ASU开设了2024《强化学习》课程,讲述了强化学习一系列主题。Dimitri 的专著《强化学习》讲义,是一本探讨人工智能与最优控制的共同边界的著作。
这是我在亚利桑那州立大学(ASU)课程中使用的主要教材。它基于我在2019至2024年间编写的课堂笔记。虽然它是一本独立的书籍,但也可以结合我的视频讲座和幻灯片(可在本网站找到)一起使用。 该书的第二版可以免费下载并用于教学目的。印刷版将在4个月内由出版公司发行,数字版也将在Google Play上提供。 本教材约480页,并在每章末附有练习题。书中主要强调基于动态规划(Dynamic Programming, DP)数学框架的直观推理。尽管数学证明并未被重点展示,但本教材依赖于我在此网站列出的《动态规划》和《强化学习》书籍中的理论发展和分析。这些书籍在符号和术语上保持一致。 本教材的重要结构特点是以模块化方式组织,具有灵活性,可以适应课程内容的变化和不同的内容选择。具体来说,本书分为两部分: (1) 一个基础平台,即第1章。该章节提供了对近似动态规划/强化学习(RL)领域的精选概览,并为更详细的课堂RL主题发展提供了起点,具体选择可由讲师决定。 (2) 选定方法的深入覆盖。在第2章中,我们讨论了一步或多步前瞻的值空间近似方法。特别关注了确定性和随机性的展开算法和前瞻树搜索。其他有趣的主题包括多智能体展开、自适应控制中的重优化展开、贝叶斯优化和极小极大问题。在第3章中,我们讨论了神经网络和其他近似架构的离线训练,以及与策略迭代/自学习、Q学习、策略梯度和聚合方法的结合。 在其他课程中,可以使用相同的基础平台进行不同的深入覆盖选择。例如,一个关于最优控制/MPC/自适应控制的课程可以基于第1章的平台构建。同样,基于该平台还可以设计数学导向程度不同的课程。 第1章,精确和近似动态规划。内容包括:AlphaZero的离线训练和在线对局、确定性动态规划、随机精确和近似动态规划、无限时域问题——概览、无限时域线性二次问题、例子重构与简化、强化学习与决策/控制。 第2章,值空间近似——展开算法。内容包括:确定性有限时域问题、值空间近似——确定性问题、离散优化的展开算法、带多步前瞻的值空间展开和近似、约束形式的展开算法、小阶段成本和长时域——连续时间展开、随机展开与蒙特卡洛树搜索、无限空间问题的展开优化、多智能体展开、贝叶斯优化和序贯估计的展开、基于POMDP(部分可观测马尔可夫决策过程)形式的自适应控制、极小极大控制的展开。 第3章,学习值和策略。内容包括:参数化近似架构、神经网络、近似动态规划中代价函数的训练、近似动态规划中策略的训练、策略梯度及相关方法、聚合。 关于第二版 第二版包含了一些重大补充,包括2024年在ASU课程中涵盖的内容。特别是建立了与Transformer、大型语言模型(LLM)以及HMM(隐马尔可夫模型)推理方法的联系(第2.3.7节),并大幅扩展了确定性问题的多步搜索内容(第2.4节)。此外,对MPC的讨论有所拓展,增加了其在极小极大问题和计算机象棋中的应用(第2.12节)。同时,第一版的结构和目标保持不变。