477页！MIT科学家Dimitri P. Bertsekas最新《强化学习》讲义书稿，2024ASU课程

【导读】MIT科学家Dimitri P. Bertsekas在ASU开设了2024《强化学习》课程，讲述了强化学习一系列主题。Dimitri 的专著《强化学习》讲义，是一本探讨人工智能与最优控制的共同边界的著作。

这是我在亚利桑那州立大学（ASU）课程中使用的主要教材。它基于我在2019至2024年间编写的课堂笔记。虽然它是一本独立的书籍，但也可以结合我的视频讲座和幻灯片（可在本网站找到）一起使用。该书的第二版可以免费下载并用于教学目的。印刷版将在4个月内由出版公司发行，数字版也将在Google Play上提供。本教材约480页，并在每章末附有练习题。书中主要强调基于动态规划（Dynamic Programming, DP）数学框架的直观推理。尽管数学证明并未被重点展示，但本教材依赖于我在此网站列出的《动态规划》和《强化学习》书籍中的理论发展和分析。这些书籍在符号和术语上保持一致。本教材的重要结构特点是以模块化方式组织，具有灵活性，可以适应课程内容的变化和不同的内容选择。具体来说，本书分为两部分： (1) 一个基础平台，即第1章。该章节提供了对近似动态规划/强化学习（RL）领域的精选概览，并为更详细的课堂RL主题发展提供了起点，具体选择可由讲师决定。 (2) 选定方法的深入覆盖。在第2章中，我们讨论了一步或多步前瞻的值空间近似方法。特别关注了确定性和随机性的展开算法和前瞻树搜索。其他有趣的主题包括多智能体展开、自适应控制中的重优化展开、贝叶斯优化和极小极大问题。在第3章中，我们讨论了神经网络和其他近似架构的离线训练，以及与策略迭代/自学习、Q学习、策略梯度和聚合方法的结合。在其他课程中，可以使用相同的基础平台进行不同的深入覆盖选择。例如，一个关于最优控制/MPC/自适应控制的课程可以基于第1章的平台构建。同样，基于该平台还可以设计数学导向程度不同的课程。第1章，精确和近似动态规划。内容包括：AlphaZero的离线训练和在线对局、确定性动态规划、随机精确和近似动态规划、无限时域问题——概览、无限时域线性二次问题、例子重构与简化、强化学习与决策/控制。第2章，值空间近似——展开算法。内容包括：确定性有限时域问题、值空间近似——确定性问题、离散优化的展开算法、带多步前瞻的值空间展开和近似、约束形式的展开算法、小阶段成本和长时域——连续时间展开、随机展开与蒙特卡洛树搜索、无限空间问题的展开优化、多智能体展开、贝叶斯优化和序贯估计的展开、基于POMDP（部分可观测马尔可夫决策过程）形式的自适应控制、极小极大控制的展开。第3章，学习值和策略。内容包括：参数化近似架构、神经网络、近似动态规划中代价函数的训练、近似动态规划中策略的训练、策略梯度及相关方法、聚合。关于第二版第二版包含了一些重大补充，包括2024年在ASU课程中涵盖的内容。特别是建立了与Transformer、大型语言模型（LLM）以及HMM（隐马尔可夫模型）推理方法的联系（第2.3.7节），并大幅扩展了确定性问题的多步搜索内容（第2.4节）。此外，对MPC的讨论有所拓展，增加了其在极小极大问题和计算机象棋中的应用（第2.12节）。同时，第一版的结构和目标保持不变。