MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制》2021ASU课程，(附书稿PDF&讲义) - 专知VIP

会员服务 ·

11

强化学习 · 强化学习与最优控制 ·

2021 年 1 月 17 日

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制》2021ASU课程，(附书稿PDF&讲义)

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

本书的目的是考虑大型和具有挑战性的多阶段决策问题，这些问题可以通过动态规划和最优控制从原则上解决，但它们的精确解在计算上是难以解决的。我们讨论了依靠近似来产生性能良好的次优策略（suboptimal policies）的求解方法。这些方法统称为强化学习（reinforcement learning），也包括近似动态规划（approximate dynamic programming）和神经动态规划（ neuro-dynamic programming）等替代名称。

我们的学科从最优控制和人工智能的思想相互作用中获益良多。本专著的目的之一是探索这两个领域之间的共同边界，并形成一个可以在任一领域具有背景的人员都可以访问的桥梁。

这本书的数学风格与作者的动态规划书和神经动态规划专著略有不同。我们更多地依赖于直观的解释，而不是基于证据的洞察力。在附录中，我们还对有限和无限视野动态规划理论和一些基本的近似方法作了严格的简要介绍。为此，我们需要一个适度的数学背景：微积分、初等概率和矩阵向量代数等。

实践证明这本书中的方法是有效的，最近在国际象棋和围棋中取得的惊人成就就是一个很好的证明。然而，在广泛的问题中，它们的性能可能不太可靠。这反映了该领域的技术现状：没有任何方法能够保证对所有甚至大多数问题都有效，但有足够的方法来尝试某个具有挑战性的问题，并有合理的机会使其中一个或多个问题最终获得成功。因此，我们的目标是提供一系列基于合理原则的方法，并为其属性提供直觉，即使这些属性不包括可靠的性能保证。希望通过对这些方法及其变体的充分探索，读者将能够充分解决他/她自己的问题。

成为VIP会员查看完整内容

91

相关内容

强化学习

强化学习（RL）是机器学习的一个领域，与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外，强化学习是三种基本的机器学习范式之一。强化学习与监督学习的不同之处在于，不需要呈现带标签的输入/输出对，也不需要显式纠正次优动作。相反，重点是在探索（未知领域）和利用（当前知识）之间找到平衡。该环境通常以马尔可夫决策过程（MDP）的形式陈述，因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于，后者不假设MDP的确切数学模型，并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

《深度强化学习》教程62页ppt，麻省理工2021深度学习导论课程MIT6.S191课程

《深度强化学习》教程62页ppt，麻省理工2021深度学习导论课程MIT6.S191课程

专知会员服务

47+阅读 · 2021年3月8日

多伦多大学2021《机器学习》课程，讲述深度学习理论中的神经网络训练动力学

多伦多大学2021《机器学习》课程，讲述深度学习理论中的神经网络训练动力学

专知会员服务

59+阅读 · 2021年1月29日

斯坦福最新《强化学习》2021课程，Emma Brunskill主讲，附PPT下载

斯坦福最新《强化学习》2021课程，Emma Brunskill主讲，附PPT下载

专知会员服务

76+阅读 · 2021年1月23日

【MIT经典书】统计学习与序列预测，261页pdf

【MIT经典书】统计学习与序列预测，261页pdf

专知会员服务

78+阅读 · 2020年11月17日

佐治亚理工2020《数据库系统实现》课程，不可错过！

佐治亚理工2020《数据库系统实现》课程，不可错过！

专知会员服务

24+阅读 · 2020年10月14日

MIT Broderick教授视频讲解《变分贝叶斯:可扩展贝叶斯推理的基础》附291页ppt

MIT Broderick教授视频讲解《变分贝叶斯:可扩展贝叶斯推理的基础》附291页ppt

专知会员服务

70+阅读 · 2020年8月17日

【硬核书】不完全信息决策理论，467页pdf

【硬核书】不完全信息决策理论，467页pdf

专知会员服务

361+阅读 · 2020年6月24日

【UC】伯克利一份简明《机器学习数学基础》丝滑入门手册，47页pdf

【UC】伯克利一份简明《机器学习数学基础》丝滑入门手册，47页pdf

专知会员服务

245+阅读 · 2020年4月15日

强化学习和最优控制的《十个关键点》81页PPT汇总

强化学习和最优控制的《十个关键点》81页PPT汇总

专知会员服务

107+阅读 · 2020年3月2日

MIT新书《强化学习与最优控制》

MIT新书《强化学习与最优控制》

专知会员服务

280+阅读 · 2019年10月9日

【牛津大学|DeepMind】论深度学习中的统计思维，附49页ppt

【牛津大学|DeepMind】论深度学习中的统计思维，附49页ppt

专知

14+阅读 · 2019年11月25日

最难啃的《深度学习》圣经花书，居然新出版了视频课！

最难啃的《深度学习》圣经花书，居然新出版了视频课！

专知

34+阅读 · 2019年9月18日

MIT课程：深度学习背后的科学—架起理论与实践的桥梁

MIT课程：深度学习背后的科学—架起理论与实践的桥梁

专知

10+阅读 · 2019年3月12日

腊月廿八 | 强化学习-TRPO和PPO背后的数学

腊月廿八 | 强化学习-TRPO和PPO背后的数学

AI研习社

18+阅读 · 2019年2月2日

博客 | MIT—线性代数（上）

博客 | MIT—线性代数（上）

AI研习社

9+阅读 · 2018年12月18日

MIT科学家Dimitri P. Bertsekas最新2019出版《强化学习与最优控制》(附书稿PDF&讲义)

MIT科学家Dimitri P. Bertsekas最新2019出版《强化学习与最优控制》(附书稿PDF&讲义)

人工智能学家

7+阅读 · 2018年12月17日

381页机器学习数学基础PDF下载

381页机器学习数学基础PDF下载

专知

89+阅读 · 2018年10月9日

从零到一 | 14本书人工智能入门必备书单（附PDF链接）

从零到一 | 14本书人工智能入门必备书单（附PDF链接）

THU数据派

36+阅读 · 2018年8月21日

强化学习——蒙特卡洛方法介绍

强化学习——蒙特卡洛方法介绍

论智

12+阅读 · 2018年6月3日

关于强化学习（附代码，练习和解答）

关于强化学习（附代码，练习和解答）

深度学习

37+阅读 · 2018年1月30日

BERTese: Learning to Speak to BERT

Arxiv

0+阅读 · 2021年3月11日

Symmetry Breaking in Symmetric Tensor Decomposition

Symmetry Breaking in Symmetric Tensor Decomposition

Arxiv

0+阅读 · 2021年3月10日

Symmetry meets AI

Arxiv

0+阅读 · 2021年3月10日

Entropy-regularized optimal transport on multivariate normal and q-normal distributions

Arxiv

0+阅读 · 2021年3月10日

Composition operators on reproducing kernel Hilbert spaces with analytic positive definite functions

Arxiv

0+阅读 · 2021年3月9日

Constrained Learning with Non-Convex Losses

Arxiv

0+阅读 · 2021年3月8日

On the Request-Trip-Vehicle Assignment Problem

Arxiv

0+阅读 · 2021年3月8日

Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation

Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation

Arxiv

25+阅读 · 2019年10月30日

Semi-parametric Image Synthesis

Arxiv

4+阅读 · 2018年4月29日

Active Metric Learning for Supervised Classification

Arxiv

9+阅读 · 2018年3月28日

VIP会员

相关主题

强化学习与最优控制

相关VIP内容

《深度强化学习》教程62页ppt，麻省理工2021深度学习导论课程MIT6.S191课程

《深度强化学习》教程62页ppt，麻省理工2021深度学习导论课程MIT6.S191课程

专知会员服务

47+阅读 · 2021年3月8日

多伦多大学2021《机器学习》课程，讲述深度学习理论中的神经网络训练动力学

多伦多大学2021《机器学习》课程，讲述深度学习理论中的神经网络训练动力学

专知会员服务

59+阅读 · 2021年1月29日

斯坦福最新《强化学习》2021课程，Emma Brunskill主讲，附PPT下载

斯坦福最新《强化学习》2021课程，Emma Brunskill主讲，附PPT下载

专知会员服务

76+阅读 · 2021年1月23日

【MIT经典书】统计学习与序列预测，261页pdf

【MIT经典书】统计学习与序列预测，261页pdf

专知会员服务

78+阅读 · 2020年11月17日

佐治亚理工2020《数据库系统实现》课程，不可错过！

佐治亚理工2020《数据库系统实现》课程，不可错过！

专知会员服务

24+阅读 · 2020年10月14日

MIT Broderick教授视频讲解《变分贝叶斯:可扩展贝叶斯推理的基础》附291页ppt

MIT Broderick教授视频讲解《变分贝叶斯:可扩展贝叶斯推理的基础》附291页ppt

专知会员服务

70+阅读 · 2020年8月17日

【硬核书】不完全信息决策理论，467页pdf

【硬核书】不完全信息决策理论，467页pdf

专知会员服务

361+阅读 · 2020年6月24日

【UC】伯克利一份简明《机器学习数学基础》丝滑入门手册，47页pdf

【UC】伯克利一份简明《机器学习数学基础》丝滑入门手册，47页pdf

专知会员服务

245+阅读 · 2020年4月15日

强化学习和最优控制的《十个关键点》81页PPT汇总

强化学习和最优控制的《十个关键点》81页PPT汇总

专知会员服务

107+阅读 · 2020年3月2日

MIT新书《强化学习与最优控制》

MIT新书《强化学习与最优控制》

专知会员服务

280+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

《美国太空军系统全生命周期建模、仿真与分析效能提升方案》最新84页报告

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

自主人工智能：未来战争是否将是自主化的？

相关资讯

【牛津大学|DeepMind】论深度学习中的统计思维，附49页ppt

【牛津大学|DeepMind】论深度学习中的统计思维，附49页ppt

专知

14+阅读 · 2019年11月25日

最难啃的《深度学习》圣经花书，居然新出版了视频课！

最难啃的《深度学习》圣经花书，居然新出版了视频课！

专知

34+阅读 · 2019年9月18日

MIT课程：深度学习背后的科学—架起理论与实践的桥梁

MIT课程：深度学习背后的科学—架起理论与实践的桥梁

专知

10+阅读 · 2019年3月12日

腊月廿八 | 强化学习-TRPO和PPO背后的数学

腊月廿八 | 强化学习-TRPO和PPO背后的数学

AI研习社

18+阅读 · 2019年2月2日

博客 | MIT—线性代数（上）

博客 | MIT—线性代数（上）

AI研习社

9+阅读 · 2018年12月18日

MIT科学家Dimitri P. Bertsekas最新2019出版《强化学习与最优控制》(附书稿PDF&讲义)

MIT科学家Dimitri P. Bertsekas最新2019出版《强化学习与最优控制》(附书稿PDF&讲义)

人工智能学家

7+阅读 · 2018年12月17日

381页机器学习数学基础PDF下载

381页机器学习数学基础PDF下载

专知

89+阅读 · 2018年10月9日

从零到一 | 14本书人工智能入门必备书单（附PDF链接）

从零到一 | 14本书人工智能入门必备书单（附PDF链接）

THU数据派

36+阅读 · 2018年8月21日

强化学习——蒙特卡洛方法介绍

强化学习——蒙特卡洛方法介绍

论智

12+阅读 · 2018年6月3日

关于强化学习（附代码，练习和解答）

关于强化学习（附代码，练习和解答）

深度学习

37+阅读 · 2018年1月30日

相关论文

BERTese: Learning to Speak to BERT

Arxiv

0+阅读 · 2021年3月11日

Symmetry Breaking in Symmetric Tensor Decomposition

Symmetry Breaking in Symmetric Tensor Decomposition

Arxiv

0+阅读 · 2021年3月10日

Symmetry meets AI

Arxiv

0+阅读 · 2021年3月10日

Entropy-regularized optimal transport on multivariate normal and q-normal distributions

Arxiv

0+阅读 · 2021年3月10日

Composition operators on reproducing kernel Hilbert spaces with analytic positive definite functions

Arxiv

0+阅读 · 2021年3月9日

Constrained Learning with Non-Convex Losses

Arxiv

0+阅读 · 2021年3月8日

On the Request-Trip-Vehicle Assignment Problem

Arxiv

0+阅读 · 2021年3月8日

Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation

Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation

Arxiv

25+阅读 · 2019年10月30日

Semi-parametric Image Synthesis

Arxiv

4+阅读 · 2018年4月29日

Active Metric Learning for Supervised Classification

Arxiv

9+阅读 · 2018年3月28日

微信扫码咨询专知VIP会员