这本书是对卡内基梅隆大学Drew Bagnell在自适应控制和强化学习课程(2010,11,14),Byron Boots在佐治亚理工大学(2019)和Sanjiban Choudhury在康奈尔大学(2022)所做课堂笔记的编辑合集。我们感谢Chris Atkeson共同讲授了这门课的第一个实例,并塑造了我们在这里思考问题的方式。这本书——以及它所依据的类——旨在提供一套实用工具,为机器与世界的交互构建决策程序。我们的应用程序从视频游戏和网络搜索到机器人操作和自动驾驶汽车。这个领域是广阔的,所以我们的观点必然是狭隘的。我们明确地不做严格的尝试,而是专注于直觉和建立这种直觉的非正式数学论证,以及我们在艰难的决策问题上多次看到的技术。我们试图概括出我们在实践中最有可能采用的技术和思维方式。在整个过程中,我们试图指出严格的衍生和原始文献的主题。这些笔记的设计基于概率的基本技术(条件概率、条件独立、高斯、积分技术、贝叶斯方法和推断、滤波和时间序列模型)、线性代数(计算和基本线性分析)、优化(梯度、Hessians、度量、Krylov子空间)和机器学习(泛化、优化、无后悔/在线学习、反向传播和核方法)。