MIT科学家Dimitri P. Bertsekas今日发布了一份2022即将出版的《Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive Control》书稿及讲义,该专著为强化学习进阶,目的在于通过从AlphaZero获取经验教训,涵盖最优模型预测与自适应控制。

Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive Control

人工智能和强化学习领域中一些最令人兴奋的成功故事都发生在游戏领域。主要的例子是最近的AlphaZero程序(它下国际象棋),以及早期(1990年代)结构类似的TD-Gammon程序(它下西洋双陆棋)。这些程序经过离线的广泛训练,使用复杂的自演化/近似策略迭代算法和神经网络。然而,在离线情况下获得的AlphaZero玩家并不会在在线游戏中直接使用(由于离线神经网络训练固有的近似错误,它太不准确了)。取而代之的是一个单独的在线玩家,它是基于多步预测和一个经过离线训练的终端位置评估器,在线玩家执行一种形式的策略改进,这与离线玩家不同,它不会因神经网络近似而退化。因此,它大大提高了性能。

类似地,TD-Gammon使用没有被神经网络近似退化的前瞻最小化在线执行一个策略改进步骤。为此,它使用了一个经过离线神经网络训练的终端位置评估器,重要的是,它还通过rollout扩展了其在线前向(使用基于位置评估器的一步前向播放器进行仿真)。AlphaZero和TD-Gammon的一个重要教训是,离线训练的控制器的性能可以通过在线游戏、长时间的前瞻性(包括最小化或推出离线获得的策略,或两者都有)和离线获得的终端成本近似大大提高。这种性能的提高通常是戏剧性的,这是由于一个简单的事实,这是我们工作的中心:在线游戏相当于求解Bellman方程的牛顿方法的一个步骤,而牛顿步骤的起点是基于离线训练的结果,并可能通过更长的前瞻性和在线推出得到增强。这个过程可以用动态规划的抽象模型和简单的几何结构来理解。它在一定程度上体现在模型预测控制中,但它似乎还没有在决策和控制社区中得到充分的认识。

在这项工作中,我们的目标是提供洞察力(通常基于可视化),解释在线决策对离线训练的有益影响。虽然我们将不再强调数学证明,但有相当多的相关分析,支持我们的结论,可以在作者最近的RL书籍[Ber19a], [Ber20a]中找到。我们的主要目标之一是通过抽象DP的统一原则表明,AlphaZero/TD-Gammon逼近值空间和rollout的思想非常广泛地应用于确定性和随机最优控制问题,包括离散和连续搜索空间。此外,这些思想可以有效地与模型预测控制、自适应控制、分散控制、离散和贝叶斯优化、基于神经网络的值和策略逼近、启发式算法等其他重要方法相结合。

http://web.mit.edu/dimitrib/www/abstractdp_MIT.html

成为VIP会员查看完整内容
0
86

相关内容

《凸优化理论》力图以简洁的篇幅,介绍凸优化的一个完整理论分析框架。凸优化理论的基石在于对偶。作者选取了相交点的几何框架(简称MC/MC框架)作为凸优化问题的对偶性分析的基础框架。相比于基于函数共轭性的代数框架,MC/MC框架更适用于直观地分析和理解各种重要的优化问题,也更适合初学者学习和理解凸优化理论。《凸优化理论/信息技术和电气工程学科国际知名教材中译本系列》可以作为高年级本科生、研究生运筹学优化类课程的教材或相关研究人员的参考书。

http://www.athenasc.com/convexduality.html

Dimitri P.Bertsekas,毕业于希腊雅典国立技术大学,主修机械与电气工程专业,在麻省理工学院系统科学专业获得博士学位,他曾经在斯坦福大学工程与经济系统系、伊利诺伊大学香槟分校电气工程系任教.从1979年起,他在麻省理工学院电气工程与计算机科学系任教,目前是McAfee工程讲座教授。   他的教学科研领域包括:确定性优化、动态规划与随机控制、大规模及分布式计算以及数据通信网络.他发表和合著了大量研究论文,出版专著14本,其中部分专著被麻省理工学院作为教材使用,包括《非线性规划》、《数据网络》、《概率论入门》以及该书,他经常为企业进行咨询,并为若干学术期刊做编辑工作。   由于在他的著作《神经元动态规划》(与John Tsitsiklis合著)中反映出的在运筹学与计算机科学结合方面的出色研究成果,Bertsekas教授获得了1997年的INFORMS奖,他还因运筹学研究获得过2000年度希腊国家奖章和2001年ACC John R.Ragazzini教育奖.2001年,他当选为美国工程院院士。

成为VIP会员查看完整内容
0
39

本教科书通过应用在电气工程和计算机科学(EECS)说明了应用概率的技术。作者介绍了使用基于概率模型和技术的算法的信息处理和通信系统,包括网络搜索、数字链接、语音识别、GPS、路线规划、推荐系统、分类和估计。然后,他解释了这些应用是如何工作的,并在此过程中,为读者提供了应用概率的关键概念和方法的理解。Python实验室使读者能够进行实验并巩固他们的理解。这个版本包括新的主题,统计测试,社会网络,排队网络,和神经网络。有关本书的辅助资料,包括Python演示和伯克利使用的Python实验室的例子。

https://library.oapen.org/handle/20.500.12657/50016

成为VIP会员查看完整内容
1
33

这本教科书强调了代数和几何之间的相互作用,以激发线性代数的研究。矩阵和线性变换被认为是同一枚硬币的两面,它们的联系激发了全书的探究。围绕着这个界面,作者提供了一个概念上的理解,数学是进一步的理论和应用的核心。继续学习线性代数的第二门课程,您将会对《高等线性代数与矩阵代数》这本书有更深的了解。

从向量、矩阵和线性变换的介绍开始,这本书的重点是构建这些工具所代表的几何直观。线性系统提供了迄今为止看到的思想的强大应用,并导致子空间、线性独立、基和秩的引入。然后研究集中在矩阵的代数性质,阐明了它们所代表的线性变换的几何性质。行列式、特征值和特征向量都可以从这种几何观点中获益。在整个过程中,“额外主题”部分以广泛的思想和应用扩大了核心内容,从线性规划,到幂迭代和线性递归关系。每个部分都有各种层次的练习,包括许多设计用来用电脑程序解决的练习。

这本书是从线性变换和矩阵本身都是有用的对象的角度写的,但它是两者之间的联系,真正打开线性代数的魔法。有时候,当我们想知道一些关于线性变换的东西时,最简单的方法就是找到一组基然后看对应的矩阵。相反,有许多有趣的矩阵和矩阵运算家族,它们似乎与线性变换无关,但却可以解释一些基无关对象的行为。

线性与矩阵代数导论是线性代数的理想入门证明课程。学生被假定已经完成了一到两门大学水平的数学课程,尽管微积分不是明确的要求。教师将会感激有足够的机会选择符合每个教室需求的主题,并通过WeBWorK提供在线作业集。

成为VIP会员查看完整内容
0
60

本书的目的是考虑大型和具有挑战性的多阶段决策问题,这些问题可以通过动态规划和最优控制从原则上解决,但它们的精确解在计算上是难以解决的。我们讨论了依靠近似来产生性能良好的次优策略(suboptimal policies)的求解方法。这些方法统称为强化学习(reinforcement learning),也包括近似动态规划(approximate dynamic programming)和神经动态规划( neuro-dynamic programming)等替代名称。

我们的学科从最优控制和人工智能的思想相互作用中获益良多。本专著的目的之一是探索这两个领域之间的共同边界,并形成一个可以在任一领域具有背景的人员都可以访问的桥梁。

这本书的数学风格与作者的动态规划书和神经动态规划专著略有不同。我们更多地依赖于直观的解释,而不是基于证据的洞察力。在附录中,我们还对有限和无限视野动态规划理论和一些基本的近似方法作了严格的简要介绍。为此,我们需要一个适度的数学背景:微积分、初等概率和矩阵向量代数等。

实践证明这本书中的方法是有效的,最近在国际象棋和围棋中取得的惊人成就就是一个很好的证明。然而,在广泛的问题中,它们的性能可能不太可靠。这反映了该领域的技术现状:没有任何方法能够保证对所有甚至大多数问题都有效,但有足够的方法来尝试某个具有挑战性的问题,并有合理的机会使其中一个或多个问题最终获得成功。因此,我们的目标是提供一系列基于合理原则的方法,并为其属性提供直觉,即使这些属性不包括可靠的性能保证。希望通过对这些方法及其变体的充分探索,读者将能够充分解决他/她自己的问题。

成为VIP会员查看完整内容
0
58
小贴士
相关论文
Lea M. Versbach,Viktor Linders,Robert Klöfkorn,Philipp Birken
0+阅读 · 1月15日
Ben Hambly,Renyuan Xu,Huining Yang
7+阅读 · 2021年12月8日
Pieter-Jan Hoedt,Frederik Kratzert,Daniel Klotz,Christina Halmich,Markus Holzleitner,Grey Nearing,Sepp Hochreiter,Günter Klambauer
6+阅读 · 2021年2月8日
Liang Yao,Chengsheng Mao,Yuan Luo
9+阅读 · 2019年9月11日
Show, Tell and Discriminate: Image Captioning by Self-retrieval with Partially Labeled Data
Xihui Liu,Hongsheng Li,Jing Shao,Dapeng Chen,Xiaogang Wang
4+阅读 · 2018年7月23日
Vikram Mullachery,Vishal Motwani
9+阅读 · 2018年5月13日
Top
微信扫码咨询专知VIP会员