MIT科学家Dimitri P. Bertsekas今日发布了一份2022即将出版的《Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive Control》书稿及讲义,该专著为强化学习进阶,目的在于通过从AlphaZero获取经验教训,涵盖最优模型预测与自适应控制。

Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive Control

人工智能和强化学习领域中一些最令人兴奋的成功故事都发生在游戏领域。主要的例子是最近的AlphaZero程序(它下国际象棋),以及早期(1990年代)结构类似的TD-Gammon程序(它下西洋双陆棋)。这些程序经过离线的广泛训练,使用复杂的自演化/近似策略迭代算法和神经网络。然而,在离线情况下获得的AlphaZero玩家并不会在在线游戏中直接使用(由于离线神经网络训练固有的近似错误,它太不准确了)。取而代之的是一个单独的在线玩家,它是基于多步预测和一个经过离线训练的终端位置评估器,在线玩家执行一种形式的策略改进,这与离线玩家不同,它不会因神经网络近似而退化。因此,它大大提高了性能。

类似地,TD-Gammon使用没有被神经网络近似退化的前瞻最小化在线执行一个策略改进步骤。为此,它使用了一个经过离线神经网络训练的终端位置评估器,重要的是,它还通过rollout扩展了其在线前向(使用基于位置评估器的一步前向播放器进行仿真)。AlphaZero和TD-Gammon的一个重要教训是,离线训练的控制器的性能可以通过在线游戏、长时间的前瞻性(包括最小化或推出离线获得的策略,或两者都有)和离线获得的终端成本近似大大提高。这种性能的提高通常是戏剧性的,这是由于一个简单的事实,这是我们工作的中心:在线游戏相当于求解Bellman方程的牛顿方法的一个步骤,而牛顿步骤的起点是基于离线训练的结果,并可能通过更长的前瞻性和在线推出得到增强。这个过程可以用动态规划的抽象模型和简单的几何结构来理解。它在一定程度上体现在模型预测控制中,但它似乎还没有在决策和控制社区中得到充分的认识。

在这项工作中,我们的目标是提供洞察力(通常基于可视化),解释在线决策对离线训练的有益影响。虽然我们将不再强调数学证明,但有相当多的相关分析,支持我们的结论,可以在作者最近的RL书籍[Ber19a], [Ber20a]中找到。我们的主要目标之一是通过抽象DP的统一原则表明,AlphaZero/TD-Gammon逼近值空间和rollout的思想非常广泛地应用于确定性和随机最优控制问题,包括离散和连续搜索空间。此外,这些思想可以有效地与模型预测控制、自适应控制、分散控制、离散和贝叶斯优化、基于神经网络的值和策略逼近、启发式算法等其他重要方法相结合。

http://web.mit.edu/dimitrib/www/abstractdp_MIT.html

成为VIP会员查看完整内容
151

相关内容

【新书】分布式强化学习,280页pdf
专知会员服务
155+阅读 · 2021年12月19日
【经典书】凸优化理论,MIT-Dimitri P. Bertsekas教授,257页pdf
【斯坦福干货书】强化学习基金融领域应用,312页pdf
专知会员服务
133+阅读 · 2020年12月22日
【圣经书】《强化学习导论(2nd)》电子书与代码,548页pdf
专知会员服务
203+阅读 · 2020年5月22日
MIT新书《强化学习与最优控制》
专知会员服务
277+阅读 · 2019年10月9日
【2022新书】强化学习工业应用
专知
18+阅读 · 2022年2月3日
【新书】分布式强化学习,280页pdf
专知
21+阅读 · 2021年12月19日
腊月廿八 | 强化学习-TRPO和PPO背后的数学
AI研习社
17+阅读 · 2019年2月2日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月19日
Risk and optimal policies in bandit experiments
Arxiv
0+阅读 · 2022年4月18日
Arxiv
0+阅读 · 2022年4月15日
Arxiv
14+阅读 · 2021年11月27日
VIP会员
相关基金
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员