以发现者Richard Bellman的名字命名的Bellman方程,也称为动态规划方程,是与称为动态规划的数学优化方法相关联的最优性的必要条件。 它根据某些初始选择的收益以及由这些初始选择产生的剩余决策问题的价值,写出某个特定时间点决策问题的价值。 正如Bellman的“最优原理”所规定的,这将动态优化问题分解为更简单的子问题。 Bellman方程首先应用于工程控制理论和应用数学的其他主题,随后成为经济学理论的重要工具。 尽管动态规划的基本概念已在约翰·冯·诺伊曼(John von Neumann)和奥斯卡·莫根斯坦(Oskar Morgenstern)的博弈与经济行为理论以及亚伯拉罕·瓦尔德(Abraham Wald)的顺序分析中得到了预言。 使用最佳控制理论几乎可以解决的任何问题,也可以通过分析适当的Bellman方程来解决。 但是,术语“贝尔曼方程”通常是指与离散时间优化问题相关的动态规划方程。 在连续时间优化问题中,类比方程是偏微分方程,通常称为汉密尔顿-雅各比-贝尔曼方程。
【机器学习】马尔科夫决策过程
AINLP
2+阅读 · 2020年1月28日
详解AlphaGo到AlphaGo Zero!
AI100
7+阅读 · 2019年1月31日
入门 | 从Q学习到DDPG,一文简述多种强化学习算法
一文读懂 AlphaGo 背后的强化学习
CSDN
1+阅读 · 2017年11月22日
一文读懂AlphaGo背后的强化学习
人工智能头条
0+阅读 · 2017年11月22日
构建强化学习系统,你需要先了解这些背景知识
机器之心
2+阅读 · 2017年11月13日
参考链接
微信扫码咨询专知VIP会员