这本书的一个关键结构特点是其模块化的组织方式,旨在提供灵活性,以便根据课程内容的变化进行调整和修改。具体来说,全书分为两个部分: (1)基础平台:包括第1章。该章节对近似动态规划(DP)/强化学习(RL)领域进行了有选择性的概述,为课堂中其他RL主题的更深入讲解提供了起点,而这些主题的选择可以由授课教师灵活决定。 (2)深入探讨部分:包括第2章和第3章,主要聚焦于具体方法的详细介绍。第2章主要讲解确定性与随机性 rollout 技术,以及一些相关的价值函数近似方法;第3章则讨论了在离线训练中使用神经网络及其他近似结构的技术。 这种模块化结构允许教师根据课程重点进行个性化定制。例如,教师可以利用第1章的基础平台来构建更偏数学理论或更偏实用导向的课程,以满足不同学生的需求。 此外,还需指出的是,本书所包含的内容超出了一个学期课堂教学所能覆盖的范围,这为授课教师在教学内容选择上提供了更多灵活性。