这是一部位于强化学习研究前沿的研究型专著,也被称为近似动态规划(Approximate Dynamic Programming)或神经动态规划(Neuro-Dynamic Programming)。本书旨在对作者于2019年由Athena Scientific出版的《强化学习》教材中的若干方法进行更深入的拓展和发展。特别地,我们展示了一些与多智能体系统、分区式体系结构以及分布式异步计算相关的最新研究成果。
我们特别关注动态规划/策略迭代与控制理论/模型预测控制的研究背景,同时详细探讨了将这些方法应用于具有挑战性的离散/组合优化问题中的策略,包括路径规划、调度、指派和混合整数规划等问题,并结合神经网络近似方法在这些场景中的使用。
本书聚焦于策略迭代这一核心思想,即从某一初始策略出发,逐步生成一个或多个改进的策略。若每次仅生成一个改进策略,则称为Rollout。基于广泛且一致的计算经验,Rollout 被认为是所有强化学习方法中最通用且最可靠的方法之一。它不仅可通过易于实现的仿真在线运行,还能应用于离散确定性组合优化问题以及随机马尔可夫决策问题。此外,Rollout 可在线使用由策略迭代或其他方法(包括策略梯度方法)离线生成的策略,并在此基础上进一步提升其性能。
本书中大量的新研究灵感来源于 AlphaZero 国际象棋程序。在该程序中,策略迭代、价值与策略网络、近似前瞻优化以及并行计算均发挥了关键作用。除连续策略改进这一基本过程外,该程序还采用深度神经网络来表示价值函数与策略,广泛利用大规模并行计算,并通过蒙特卡洛树搜索与前瞻树剪枝等方法简化前瞻优化过程。本书同样聚焦于策略迭代、价值与策略的神经网络表示、并行与分布式计算以及前瞻简化。因此,尽管在具体应用上存在显著差异,本专著核心设计思想与 AlphaZero 架构有诸多共通之处,不过我们将这些思想置于更广泛、非特定任务的理论框架下进行发展。
本书的几个突出特点包括:
提出了有关分布式异步计算、分区体系结构与多智能体系统的新研究成果,应用于部分可观测马尔可夫决策问题等具有挑战性的大规模优化问题;
描述了针对具有多智能体结构的问题所设计的 Rollout 与策略迭代的变体,这些方法可显著降低前瞻优化的计算负担;
建立了 Rollout 与**模型预测控制(Model Predictive Control)**之间的联系,后者是控制系统设计中的关键方法之一;
展示了受限条件下与多智能体形式的 Rollout 在离散与组合优化问题中的应用场景。