【导读】MIT科学家Dimitri P. Bertsekas在ASU开设了2024《强化学习》课程,讲述了强化学习一系列主题。Dimitri 的专著《强化学习》讲义,是一本探讨人工智能与最优控制的共同边界的著作。

这是我在亚利桑那州立大学(ASU)课程中使用的主要教材。它基于我在2019至2024年间编写的课堂笔记。虽然它是一本独立的书籍,但也可以结合我的视频讲座和幻灯片(可在本网站找到)一起使用。 该书的第二版可以免费下载并用于教学目的。印刷版将在4个月内由出版公司发行,数字版也将在Google Play上提供。 本教材约480页,并在每章末附有练习题。书中主要强调基于动态规划(Dynamic Programming, DP)数学框架的直观推理。尽管数学证明并未被重点展示,但本教材依赖于我在此网站列出的《动态规划》和《强化学习》书籍中的理论发展和分析。这些书籍在符号和术语上保持一致。 本教材的重要结构特点是以模块化方式组织,具有灵活性,可以适应课程内容的变化和不同的内容选择。具体来说,本书分为两部分: (1) 一个基础平台,即第1章。该章节提供了对近似动态规划/强化学习(RL)领域的精选概览,并为更详细的课堂RL主题发展提供了起点,具体选择可由讲师决定。 (2) 选定方法的深入覆盖。在第2章中,我们讨论了一步或多步前瞻的值空间近似方法。特别关注了确定性和随机性的展开算法和前瞻树搜索。其他有趣的主题包括多智能体展开、自适应控制中的重优化展开、贝叶斯优化和极小极大问题。在第3章中,我们讨论了神经网络和其他近似架构的离线训练,以及与策略迭代/自学习、Q学习、策略梯度和聚合方法的结合。 在其他课程中,可以使用相同的基础平台进行不同的深入覆盖选择。例如,一个关于最优控制/MPC/自适应控制的课程可以基于第1章的平台构建。同样,基于该平台还可以设计数学导向程度不同的课程。 第1章,精确和近似动态规划。内容包括:AlphaZero的离线训练和在线对局、确定性动态规划、随机精确和近似动态规划、无限时域问题——概览、无限时域线性二次问题、例子重构与简化、强化学习与决策/控制。 第2章,值空间近似——展开算法。内容包括:确定性有限时域问题、值空间近似——确定性问题、离散优化的展开算法、带多步前瞻的值空间展开和近似、约束形式的展开算法、小阶段成本和长时域——连续时间展开、随机展开与蒙特卡洛树搜索、无限空间问题的展开优化、多智能体展开、贝叶斯优化和序贯估计的展开、基于POMDP(部分可观测马尔可夫决策过程)形式的自适应控制、极小极大控制的展开。 第3章,学习值和策略。内容包括:参数化近似架构、神经网络、近似动态规划中代价函数的训练、近似动态规划中策略的训练、策略梯度及相关方法、聚合。 关于第二版 第二版包含了一些重大补充,包括2024年在ASU课程中涵盖的内容。特别是建立了与Transformer、大型语言模型(LLM)以及HMM(隐马尔可夫模型)推理方法的联系(第2.3.7节),并大幅扩展了确定性问题的多步搜索内容(第2.4节)。此外,对MPC的讨论有所拓展,增加了其在极小极大问题和计算机象棋中的应用(第2.12节)。同时,第一版的结构和目标保持不变。

成为VIP会员查看完整内容
47

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
国家自然科学基金
5+阅读 · 2017年6月30日
国家自然科学基金
12+阅读 · 2016年12月31日
国家自然科学基金
36+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年4月30日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
153+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
392+阅读 · 2023年3月31日
Arxiv
65+阅读 · 2023年3月26日
Arxiv
135+阅读 · 2023年3月24日
Arxiv
19+阅读 · 2023年3月17日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
5+阅读 · 2017年6月30日
国家自然科学基金
12+阅读 · 2016年12月31日
国家自然科学基金
36+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年4月30日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员