贝尔曼方程热门内容 - 专知

会员服务 ·

贝尔曼方程

贝尔曼方程

以发现者Richard Bellman的名字命名的Bellman方程，也称为动态规划方程，是与称为动态规划的数学优化方法相关联的最优性的必要条件。它根据某些初始选择的收益以及由这些初始选择产生的剩余决策问题的价值，写出某个特定时间点决策问题的价值。正如Bellman的“最优原理”所规定的，这将动态优化问题分解为更简单的子问题。 Bellman方程首先应用于工程控制理论和应用数学的其他主题，随后成为经济学理论的重要工具。尽管动态规划的基本概念已在约翰·冯·诺伊曼（John von Neumann）和奥斯卡·莫根斯坦（Oskar Morgenstern）的博弈与经济行为理论以及亚伯拉罕·瓦尔德（Abraham Wald）的顺序分析中得到了预言。使用最佳控制理论几乎可以解决的任何问题，也可以通过分析适当的Bellman方程来解决。但是，术语“贝尔曼方程”通常是指与离散时间优化问题相关的动态规划方程。在连续时间优化问题中，类比方程是偏微分方程，通常称为汉密尔顿-雅各比-贝尔曼方程。

DeepMind ICML 2017论文：超越传统强化学习的价值分布方法

DeepMind ICML 2017论文：超越传统强化学习的价值分布方法

MOOC

0+阅读 · 2017年8月1日

入门 | 从Q学习到DDPG，一文简述多种强化学习算法

入门 | 从Q学习到DDPG，一文简述多种强化学习算法

机器之心

17+阅读 · 2018年1月21日

DeepMind最新ICML论文：价值分布方法超越所有传统强化学习

DeepMind最新ICML论文：价值分布方法超越所有传统强化学习

新智元

2+阅读 · 2017年7月25日

详解AlphaGo到AlphaGo Zero！

详解AlphaGo到AlphaGo Zero！

AI100

7+阅读 · 2019年1月31日

一文读懂 AlphaGo 背后的强化学习

一文读懂 AlphaGo 背后的强化学习

CSDN

1+阅读 · 2017年11月22日

最新｜DeepMind提出“价值分布”颠覆传统强化学习思路！

最新｜DeepMind提出“价值分布”颠覆传统强化学习思路！

全球人工智能

0+阅读 · 2017年7月25日

【强化学习】一文读懂AlphaGo背后的强化学习：它的背景知识与贝尔曼方程的原理

【强化学习】一文读懂AlphaGo背后的强化学习：它的背景知识与贝尔曼方程的原理

产业智能官

7+阅读 · 2017年11月26日

学界 | 伯克利提出强化学习新方法，可让智能体同时学习多个解决方案

学界 | 伯克利提出强化学习新方法，可让智能体同时学习多个解决方案

机器之心

0+阅读 · 2017年10月14日

【机器学习】马尔科夫决策过程

【机器学习】马尔科夫决策过程

AINLP

2+阅读 · 2020年1月28日

一文读懂AlphaGo背后的强化学习：它的背景知识与贝尔曼方程的原理

一文读懂AlphaGo背后的强化学习：它的背景知识与贝尔曼方程的原理

AI100

0+阅读 · 2017年11月25日

边做边思考，谷歌大脑提出并发RL算法，机械臂抓取速度提高一倍！

边做边思考，谷歌大脑提出并发RL算法，机械臂抓取速度提高一倍！

机器之心

0+阅读 · 2020年5月11日

【强化学习】构建强化学习系统，你需要先了解这些背景知识

【强化学习】构建强化学习系统，你需要先了解这些背景知识

产业智能官

1+阅读 · 2017年11月14日

深度 | DeepMind ICML 2017论文：超越传统强化学习的价值分布方法

深度 | DeepMind ICML 2017论文：超越传统强化学习的价值分布方法

机器之心

0+阅读 · 2017年7月25日

NIPS 2017：国内高校、机构参与论文入选情况（二）

NIPS 2017：国内高校、机构参与论文入选情况（二）

论智

0+阅读 · 2017年11月23日

参考链接

微信扫码咨询专知VIP会员