【普林斯顿干货书】强化学习与随机优化，728页pdf阐述序列决策统一框架 - 专知VIP

会员服务 ·

38

强化学习 · 随机优化 · 序列决策 · 书籍 · 普林斯顿大学 (Princeton University) ·

2021 年 4 月 25 日

【普林斯顿干货书】强化学习与随机优化，728页pdf阐述序列决策统一框架

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

《强化学习和随机优化:序列决策的统一框架》是一本新书，它提供了一个统一框架，涵盖了所有在不确定性下进行决策的社区(见jungle.princeton.edu)。这是第一本全面介绍这些领域的书，遵循了确定性优化和机器学习(但不是随机优化)中长期使用的风格。

第一部分提供了基础材料，其中大部分可以略读。第1章提供了通用建模框架的概述，该框架涵盖了任何序列决策问题，最困难的挑战(对于大多数问题)是策略的设计。第1章提供了跨越任何可能被设计的策略的四类策略路线图的早期草图。第2章总结了每个社区的规范化建模框架，这些框架使用了该字段的符号来处理某种形式的序列决策问题。对这一领域完全陌生的读者可以略读这一章，了解已经采用的各种方法。有深度的读者将在这些规范问题中的一个或多个方面有一定程度的专业知识，这将有助于在该问题和我们的框架之间提供一座桥梁。最后，第三章深入探讨了在线学习。本章应该略读，然后在需要时作为参考资料使用。
第二部分-随机搜索-这些是随机优化问题，可以使用自适应算法解决，其中唯一的信息链接迭代是关于函数的信念。我们还将这些状态独立函数称为状态独立函数，以区别于我们在第三部分中开始处理的更一般的状态依赖函数。
第三部分-状态相关问题-这里我们过渡到更丰富的序列问题类，其中被优化的函数是状态相关的。
第四部分-策略搜索-这些章节描述了必须调整的策略，无论是在模拟器中还是通过经验。
第五部分-基于前瞻近似的策略-基于前瞻近似的策略是策略搜索派生的策略的对应。
第六部分-多智能体系统和学习-最后我们展示了如何扩展我们的框架来处理多智能体系统。

目录内容：

Chapter 1 – Introduction

Chapter 2 – Canonical models and applications .

Chapter 3 – Online learning- Revised from ADP book

Chapter 4 – Introduction to stochastic search

Chapter 5 – Derivative-based stochastic optimization

Chapter 6 – Stepsize policies

Chapter 7 – Derivative-free stochastic optimization

Chapter 8 – State-dependent problems

Chapter 9 – Modeling sequential decision problems

Chapter 10 – Uncertainty modeling

Chapter 11 – Designing policies

Chapter 12 – Policy function approximations and policy search

Chapter 13 – Cost function approximations

Chapter 14 – Discrete Markov decision processes

Chapter 15 – Backward approximate dynamic programming

Chapter 16 – Forward ADP I: The value of a policy

Chapter 17 – Forward ADP II: Policy optimization

Chapter 18 – Forward ADP III: Convex functions

Chapter 19 – Direct lookahead policies

Chapter 20 – POMDPs, two-agent systems, and multiagent RL

成为VIP会员查看完整内容

相关内容

强化学习

强化学习（RL）是机器学习的一个领域，与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外，强化学习是三种基本的机器学习范式之一。强化学习与监督学习的不同之处在于，不需要呈现带标签的输入/输出对，也不需要显式纠正次优动作。相反，重点是在探索（未知领域）和利用（当前知识）之间找到平衡。该环境通常以马尔可夫决策过程（MDP）的形式陈述，因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于，后者不假设MDP的确切数学模型，并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【斯坦福经典书】熵与信息论，311页pdf

专知会员服务

117+阅读 · 2021年3月23日

【干货书】鲁棒优化Robust Optimization，570页pdf

专知会员服务

144+阅读 · 2021年3月17日

【干货书】机器学习优化，509页pdf

【干货书】机器学习优化，509页pdf

专知会员服务

150+阅读 · 2021年2月26日

【斯坦福干货书】强化学习基金融领域应用，312页pdf

【斯坦福干货书】强化学习基金融领域应用，312页pdf

专知会员服务

134+阅读 · 2020年12月22日

最新《非凸优化理论》进展书册，79页pdf

最新《非凸优化理论》进展书册，79页pdf

专知会员服务

111+阅读 · 2020年12月18日

【干货书】机器学习速查手册，135页pdf

【干货书】机器学习速查手册，135页pdf

专知会员服务

127+阅读 · 2020年11月20日

【干货书】面向工程师的机器学习简介：理论、算法、概念全覆盖，206页pdf

【干货书】面向工程师的机器学习简介：理论、算法、概念全覆盖，206页pdf

专知会员服务

113+阅读 · 2020年6月13日

【圣经书】《强化学习导论(2nd)》电子书与代码，548页pdf

【圣经书】《强化学习导论(2nd)》电子书与代码，548页pdf

专知会员服务

208+阅读 · 2020年5月22日

【经典书】贝叶斯编程，378页pdf，Bayesian Programming

【经典书】贝叶斯编程，378页pdf，Bayesian Programming

专知会员服务

250+阅读 · 2020年5月18日

经典书《斯坦福大学-多智能体系统》532页pdf，MULTIAGENT SYSTEMS Algorithmic, Game-Theoretic, and Logical Foundations

经典书《斯坦福大学-多智能体系统》532页pdf，MULTIAGENT SYSTEMS Algorithmic, Game-Theoretic, and Logical Foundations

专知会员服务

158+阅读 · 2020年1月29日

【干货书】《机器学习导论(第二版)》，348页pdf

【干货书】《机器学习导论(第二版)》，348页pdf

专知

42+阅读 · 2020年6月16日

让知识来指引你：序列推荐场景中以知识为导向的强化学习模型

让知识来指引你：序列推荐场景中以知识为导向的强化学习模型

PaperWeekly

6+阅读 · 2020年6月8日

圣经书||《强化学习导论(2nd)》原书、代码、习题答案、课程视频大全

圣经书||《强化学习导论(2nd)》原书、代码、习题答案、课程视频大全

专知

59+阅读 · 2020年3月5日

经典书《斯坦福大学-多智能体系统》532页pdf

经典书《斯坦福大学-多智能体系统》532页pdf

专知

120+阅读 · 2020年1月29日

【微软Alekh等开放新书】强化学习理论与算法，83页pdf，了解最新进展

【微软Alekh等开放新书】强化学习理论与算法，83页pdf，了解最新进展

专知

25+阅读 · 2019年11月23日

强化学习精品书籍

强化学习精品书籍

平均机器

26+阅读 · 2019年1月2日

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

专知

12+阅读 · 2018年12月22日

每日论文 | 面向统计学的神经网络介绍；梯度下降一阶和二阶通用框架；对智能体进行快速调整的线上方法

每日论文 | 面向统计学的神经网络介绍；梯度下降一阶和二阶通用框架；对智能体进行快速调整的线上方法

论智

3+阅读 · 2018年10月20日

一文学习基于蒙特卡罗的强化学习方法（送书）

一文学习基于蒙特卡罗的强化学习方法（送书）

人工智能头条

7+阅读 · 2018年3月13日

学界 | 面向工程师的机器学习简介：理论、算法、概念全覆盖

学界 | 面向工程师的机器学习简介：理论、算法、概念全覆盖

机器之心

17+阅读 · 2017年9月15日

Surrogate-Based Simulation Optimization

Arxiv

0+阅读 · 2021年6月11日

Debiasing a First-order Heuristic for Approximate Bi-level Optimization

Arxiv

0+阅读 · 2021年6月8日

Identifiability in inverse reinforcement learning

Arxiv

0+阅读 · 2021年6月7日

Deconditional Downscaling with Gaussian Processes

Arxiv

1+阅读 · 2021年6月5日

Cascading Bandit under Differential Privacy

Arxiv

0+阅读 · 2021年6月4日

Robustifying Reinforcement Learning Policies with $\mathcal{L}_1$ Adaptive Control

Arxiv

0+阅读 · 2021年6月4日

Differential Dynamic Programming Neural Optimizer

Arxiv

7+阅读 · 2020年6月29日

Hyper-Parameter Optimization: A Review of Algorithms and Applications

Hyper-Parameter Optimization: A Review of Algorithms and Applications

Arxiv

16+阅读 · 2020年3月12日

Optimization for deep learning: theory and algorithms

Optimization for deep learning: theory and algorithms

Arxiv

106+阅读 · 2019年12月19日

Large-Scale Stochastic Sampling from the Probability Simplex

Arxiv

3+阅读 · 2018年6月19日

VIP会员

相关主题

普林斯顿大学 (Princeton University)

相关VIP内容

【斯坦福经典书】熵与信息论，311页pdf

专知会员服务

117+阅读 · 2021年3月23日

【干货书】鲁棒优化Robust Optimization，570页pdf

专知会员服务

144+阅读 · 2021年3月17日

【干货书】机器学习优化，509页pdf

【干货书】机器学习优化，509页pdf

专知会员服务

150+阅读 · 2021年2月26日

【斯坦福干货书】强化学习基金融领域应用，312页pdf

【斯坦福干货书】强化学习基金融领域应用，312页pdf

专知会员服务

134+阅读 · 2020年12月22日

最新《非凸优化理论》进展书册，79页pdf

最新《非凸优化理论》进展书册，79页pdf

专知会员服务

111+阅读 · 2020年12月18日

【干货书】机器学习速查手册，135页pdf

【干货书】机器学习速查手册，135页pdf

专知会员服务

127+阅读 · 2020年11月20日

【干货书】面向工程师的机器学习简介：理论、算法、概念全覆盖，206页pdf

【干货书】面向工程师的机器学习简介：理论、算法、概念全覆盖，206页pdf

专知会员服务

113+阅读 · 2020年6月13日

【圣经书】《强化学习导论(2nd)》电子书与代码，548页pdf

【圣经书】《强化学习导论(2nd)》电子书与代码，548页pdf

专知会员服务

208+阅读 · 2020年5月22日

【经典书】贝叶斯编程，378页pdf，Bayesian Programming

【经典书】贝叶斯编程，378页pdf，Bayesian Programming

专知会员服务

250+阅读 · 2020年5月18日

经典书《斯坦福大学-多智能体系统》532页pdf，MULTIAGENT SYSTEMS Algorithmic, Game-Theoretic, and Logical Foundations

经典书《斯坦福大学-多智能体系统》532页pdf，MULTIAGENT SYSTEMS Algorithmic, Game-Theoretic, and Logical Foundations

专知会员服务

158+阅读 · 2020年1月29日

热门VIP内容

开通专知VIP会员享更多权益服务

检索增强生成（RAG）技术，261页slides

美联参会指南-联合规划与执行概述及政策框架 | 32页

从DeepSeek-R1学到的三个核心经验

大规模视觉模型中的提示式适配：综述

相关资讯

【干货书】《机器学习导论(第二版)》，348页pdf

【干货书】《机器学习导论(第二版)》，348页pdf

专知

42+阅读 · 2020年6月16日

让知识来指引你：序列推荐场景中以知识为导向的强化学习模型

让知识来指引你：序列推荐场景中以知识为导向的强化学习模型

PaperWeekly

6+阅读 · 2020年6月8日

圣经书||《强化学习导论(2nd)》原书、代码、习题答案、课程视频大全

圣经书||《强化学习导论(2nd)》原书、代码、习题答案、课程视频大全

专知

59+阅读 · 2020年3月5日

经典书《斯坦福大学-多智能体系统》532页pdf

经典书《斯坦福大学-多智能体系统》532页pdf

专知

120+阅读 · 2020年1月29日

【微软Alekh等开放新书】强化学习理论与算法，83页pdf，了解最新进展

【微软Alekh等开放新书】强化学习理论与算法，83页pdf，了解最新进展

专知

25+阅读 · 2019年11月23日

强化学习精品书籍

强化学习精品书籍

平均机器

26+阅读 · 2019年1月2日

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

专知

12+阅读 · 2018年12月22日

每日论文 | 面向统计学的神经网络介绍；梯度下降一阶和二阶通用框架；对智能体进行快速调整的线上方法

每日论文 | 面向统计学的神经网络介绍；梯度下降一阶和二阶通用框架；对智能体进行快速调整的线上方法

论智

3+阅读 · 2018年10月20日

一文学习基于蒙特卡罗的强化学习方法（送书）

一文学习基于蒙特卡罗的强化学习方法（送书）

人工智能头条

7+阅读 · 2018年3月13日

学界 | 面向工程师的机器学习简介：理论、算法、概念全覆盖

学界 | 面向工程师的机器学习简介：理论、算法、概念全覆盖

机器之心

17+阅读 · 2017年9月15日

相关论文

Surrogate-Based Simulation Optimization

Arxiv

0+阅读 · 2021年6月11日

Debiasing a First-order Heuristic for Approximate Bi-level Optimization

Arxiv

0+阅读 · 2021年6月8日

Identifiability in inverse reinforcement learning

Arxiv

0+阅读 · 2021年6月7日

Deconditional Downscaling with Gaussian Processes

Arxiv

1+阅读 · 2021年6月5日

Cascading Bandit under Differential Privacy

Arxiv

0+阅读 · 2021年6月4日

Robustifying Reinforcement Learning Policies with $\mathcal{L}_1$ Adaptive Control

Arxiv

0+阅读 · 2021年6月4日

Differential Dynamic Programming Neural Optimizer

Arxiv

7+阅读 · 2020年6月29日

Hyper-Parameter Optimization: A Review of Algorithms and Applications

Hyper-Parameter Optimization: A Review of Algorithms and Applications

Arxiv

16+阅读 · 2020年3月12日

Optimization for deep learning: theory and algorithms

Optimization for deep learning: theory and algorithms

Arxiv

106+阅读 · 2019年12月19日

Large-Scale Stochastic Sampling from the Probability Simplex

Arxiv

3+阅读 · 2018年6月19日

微信扫码咨询专知VIP会员