本书的目的是考虑大型和具有挑战性的多阶段决策问题,这些问题可以通过动态规划和最优控制从原则上解决,但它们的精确解在计算上是难以解决的。我们讨论了依靠近似来产生性能良好的次优策略(suboptimal policies)的求解方法。这些方法统称为强化学习(reinforcement learning),也包括近似动态规划(approximate dynamic programming)和神经动态规划( neuro-dynamic programming)等替代名称。

我们的学科从最优控制和人工智能的思想相互作用中获益良多。本专著的目的之一是探索这两个领域之间的共同边界,并形成一个可以在任一领域具有背景的人员都可以访问的桥梁。

这本书的数学风格与作者的动态规划书和神经动态规划专著略有不同。我们更多地依赖于直观的解释,而不是基于证据的洞察力。在附录中,我们还对有限和无限视野动态规划理论和一些基本的近似方法作了严格的简要介绍。为此,我们需要一个适度的数学背景:微积分、初等概率和矩阵向量代数等。

实践证明这本书中的方法是有效的,最近在国际象棋和围棋中取得的惊人成就就是一个很好的证明。然而,在广泛的问题中,它们的性能可能不太可靠。这反映了该领域的技术现状:没有任何方法能够保证对所有甚至大多数问题都有效,但有足够的方法来尝试某个具有挑战性的问题,并有合理的机会使其中一个或多个问题最终获得成功。因此,我们的目标是提供一系列基于合理原则的方法,并为其属性提供直觉,即使这些属性不包括可靠的性能保证。希望通过对这些方法及其变体的充分探索,读者将能够充分解决他/她自己的问题。

成为VIP会员查看完整内容
87

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【MIT经典书】统计学习与序列预测,261页pdf
专知会员服务
74+阅读 · 2020年11月17日
佐治亚理工2020《数据库系统实现》课程,不可错过!
专知会员服务
23+阅读 · 2020年10月14日
【硬核书】不完全信息决策理论,467页pdf
专知会员服务
335+阅读 · 2020年6月24日
强化学习和最优控制的《十个关键点》81页PPT汇总
专知会员服务
102+阅读 · 2020年3月2日
MIT新书《强化学习与最优控制》
专知会员服务
270+阅读 · 2019年10月9日
腊月廿八 | 强化学习-TRPO和PPO背后的数学
AI研习社
17+阅读 · 2019年2月2日
博客 | MIT—线性代数(上)
AI研习社
8+阅读 · 2018年12月18日
381页机器学习数学基础PDF下载
专知
88+阅读 · 2018年10月9日
强化学习——蒙特卡洛方法介绍
论智
12+阅读 · 2018年6月3日
关于强化学习(附代码,练习和解答)
深度学习
35+阅读 · 2018年1月30日
Arxiv
0+阅读 · 2021年3月11日
Symmetry Breaking in Symmetric Tensor Decomposition
Arxiv
0+阅读 · 2021年3月10日
Arxiv
0+阅读 · 2021年3月10日
Arxiv
0+阅读 · 2021年3月8日
Arxiv
0+阅读 · 2021年3月8日
Arxiv
4+阅读 · 2018年4月29日
Arxiv
9+阅读 · 2018年3月28日
VIP会员
相关VIP内容
【MIT经典书】统计学习与序列预测,261页pdf
专知会员服务
74+阅读 · 2020年11月17日
佐治亚理工2020《数据库系统实现》课程,不可错过!
专知会员服务
23+阅读 · 2020年10月14日
【硬核书】不完全信息决策理论,467页pdf
专知会员服务
335+阅读 · 2020年6月24日
强化学习和最优控制的《十个关键点》81页PPT汇总
专知会员服务
102+阅读 · 2020年3月2日
MIT新书《强化学习与最优控制》
专知会员服务
270+阅读 · 2019年10月9日
相关资讯
腊月廿八 | 强化学习-TRPO和PPO背后的数学
AI研习社
17+阅读 · 2019年2月2日
博客 | MIT—线性代数(上)
AI研习社
8+阅读 · 2018年12月18日
381页机器学习数学基础PDF下载
专知
88+阅读 · 2018年10月9日
强化学习——蒙特卡洛方法介绍
论智
12+阅读 · 2018年6月3日
关于强化学习(附代码,练习和解答)
深度学习
35+阅读 · 2018年1月30日
相关论文
Arxiv
0+阅读 · 2021年3月11日
Symmetry Breaking in Symmetric Tensor Decomposition
Arxiv
0+阅读 · 2021年3月10日
Arxiv
0+阅读 · 2021年3月10日
Arxiv
0+阅读 · 2021年3月8日
Arxiv
0+阅读 · 2021年3月8日
Arxiv
4+阅读 · 2018年4月29日
Arxiv
9+阅读 · 2018年3月28日
微信扫码咨询专知VIP会员