这本手稿涵盖了强化学习的所有重要的基本方面。第二章采用马尔可夫决策过程对主体与环境之间的相互作用进行建模。第三章介绍了基于给定环境模型解决MDP问题的核心技术——动态规划。一般来说,解决MDP问题涉及到政策评估和政策改进的迭代。在第四章中,我们讨论了无模型方法:蒙特卡洛,TD学习,SARSA和q学习。第五章对强化学习中的值函数逼近进行了一般讨论。作为一个重要的例子,深度Q-learning将在第6章中详细介绍。第7章介绍了策略梯度方法,重点介绍了策略梯度定理、REINFORCE算法、Advantage Actor-Critic算法等基本概念。