【经典书】贝叶斯强化学习概述，147页pdf - 专知

会员服务 ·

0

【经典书】贝叶斯强化学习概述，147页pdf

2021 年 11 月 21 日 专知

用于机器学习的贝叶斯方法已经被广泛研究，产生了将先验信息纳入推理算法的原则方法。本文对贝叶斯方法在强化学习(RL)范式中的作用进行了深入的评述。在RL中整合贝叶斯推理的主要动机是，它提供了一种优雅的行动选择(探索/开发)方法，作为学习中的不确定性的函数，并且它提供了一种将先验知识整合到算法中的机制。

贝叶斯强化学习:综述首先讨论了简单单步Bandit模型中的贝叶斯推理模型和方法。然后回顾了最近关于基于模型的RL的贝叶斯方法的广泛文献，其中先验信息可以表达在马尔可夫模型的参数上。它还提出了无模型RL的贝叶斯方法，其中先验是在值函数或策略类上表示的。

《贝叶斯强化学习》是一个全面的参述，为学生和研究人员与兴趣的贝叶斯RL算法及其理论和经验性质。

本文的主要目的是对BRL算法及其理论和经验性质进行全面的综述。 在第二章，我们提供了一个主要的数学概念和技术的回顾，在整个论文中使用。第三章利用bandit框架研究了单步决策的贝叶斯学习方法。这一节既是在一个易于理解的更简单的环境中阐述BRL的潜力，也是一个独立的兴趣点，因为bandit 具有广泛的应用。这里给出的主要结果是理论性质的，概述了遗憾最小化标准的已知性能界限。第四章回顾了现有的基于模型的BRL方法，其中后验是通过系统动力学模型的参数来表示的。第5章重点讨论BRL方法，这些方法不明确地学习系统的模型，而是在后一种方法在解空间中表达。第6章重点介绍了BRL在处理参数不确定性导致的风险方面的一个特殊优势，并调查了几种将此类风险纳入决策过程的方法。最后，第七章讨论了针对特殊问题(PAC-Bayes模型选择、逆RL、多智能体RL和多任务RL)的BRL的各种扩展

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“BRLS” 就可以获取《【经典书】贝叶斯强化学习概述，147页pdf》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

4

相关内容

贝叶斯强化学习

贝叶斯强化学习

【经典书】图论，322页pdf

【经典书】图论，322页pdf

专知会员服务

123+阅读 · 2021年10月14日

【斯坦福经典书】强化学习在金融应用，414页pdf

【斯坦福经典书】强化学习在金融应用，414页pdf

专知会员服务

127+阅读 · 2021年3月30日

【经典书】信息论原理，774页pdf

【经典书】信息论原理，774页pdf

专知会员服务

262+阅读 · 2021年3月22日

【经典书】统计强化学习：现代机器学习方法，206页pdf

【经典书】统计强化学习：现代机器学习方法，206页pdf

专知会员服务

81+阅读 · 2021年2月24日

【经典书】统计学理论，925页pdf

【经典书】统计学理论，925页pdf

专知会员服务

168+阅读 · 2020年12月6日

【斯坦福经典书】概率理论，400页pdf

专知会员服务

143+阅读 · 2020年12月3日

【经典书】深度学习技术型概述，106页pdf

专知会员服务

48+阅读 · 2020年12月2日

【经典书】Python金融大数据分析，566页pdf

【经典书】Python金融大数据分析，566页pdf

专知会员服务

124+阅读 · 2020年8月1日

【经典书】贝叶斯编程，378页pdf，Bayesian Programming

【经典书】贝叶斯编程，378页pdf，Bayesian Programming

专知会员服务

250+阅读 · 2020年5月18日

【经典书】机器学习高斯过程，266页pdf

【经典书】机器学习高斯过程，266页pdf

专知会员服务

235+阅读 · 2020年5月2日

【经典书】凸优化：算法与复杂度，130页pdf

【经典书】凸优化：算法与复杂度，130页pdf

专知

7+阅读 · 2021年11月16日

【经典书】全局优化算法：理论与应用，820页pdf

【经典书】全局优化算法：理论与应用，820页pdf

专知

40+阅读 · 2021年11月10日

【经典书】机器学习导论，234页pdf

【经典书】机器学习导论，234页pdf

专知

1+阅读 · 2021年4月20日

【斯坦福经典书】机器学习导论，188页pdf

【斯坦福经典书】机器学习导论，188页pdf

专知

0+阅读 · 2021年3月31日

【斯坦福经典书】强化学习在金融应用，414页pdf

【斯坦福经典书】强化学习在金融应用，414页pdf

专知

2+阅读 · 2021年3月30日

【经典书】信息论与统计: 教程，116页pdf

【经典书】信息论与统计: 教程，116页pdf

专知

2+阅读 · 2021年3月27日

【经典书】数理统计学，142页pdf

【经典书】数理统计学，142页pdf

专知

2+阅读 · 2021年3月25日

【斯坦福经典书】熵与信息论，311页pdf

【斯坦福经典书】熵与信息论，311页pdf

专知

5+阅读 · 2021年3月23日

最新《可解释人工智能》概述，50页ppt

最新《可解释人工智能》概述，50页ppt

专知

9+阅读 · 2021年3月17日

【经典书】线性代数，436页pdf

【经典书】线性代数，436页pdf

专知

3+阅读 · 2021年3月16日

量子与经典关联全息成像研究

国家自然科学基金

2+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

统计学习理论中的分位数回归和MEE算法

国家自然科学基金

1+阅读 · 2012年12月31日

不确定性平衡优化理论及其应用

国家自然科学基金

1+阅读 · 2012年12月31日

求解非线性等式系统的滤子方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

张量分解与最优化及其在信息处理中的应用

国家自然科学基金

0+阅读 · 2011年12月31日

动态数据挖掘中的演化聚类模型与算法研究

国家自然科学基金

1+阅读 · 2011年12月31日

地面三维激光雷达数据处理理论及应用研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于损失函数的统计机器学习算法及其应用研究

国家自然科学基金

7+阅读 · 2009年12月31日

基于贝叶斯博弈的协同演化算法及其在交易Agent中的应用研究

国家自然科学基金

1+阅读 · 2009年12月31日

Almost Optimal Algorithms for Two-player Zero-Sum Linear Mixture Markov Games

Arxiv

0+阅读 · 2022年4月20日

A stochastic Stein Variational Newton method

Arxiv

0+阅读 · 2022年4月19日

Formalizing Geometric Algebra in Lean

Arxiv

0+阅读 · 2022年4月19日

CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement Learning

CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement Learning

Arxiv

0+阅读 · 2022年4月18日

M-Estimation based on quasi-processes from discrete samples of Levy processes

Arxiv

0+阅读 · 2022年4月18日

Space-sequential particle filters for high-dimensional dynamical systems described by stochastic differential equations

Arxiv

0+阅读 · 2022年4月15日

Challenges for Open-domain Targeted Sentiment Analysis

Challenges for Open-domain Targeted Sentiment Analysis

Arxiv

1+阅读 · 2022年4月15日

Testing distributional assumptions of learning algorithms

Arxiv

0+阅读 · 2022年4月14日

Meta-learning in natural and artificial intelligence

Arxiv

10+阅读 · 2020年11月26日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

VIP会员

相关主题

贝叶斯强化学习

贝叶斯方法

贝叶斯推理

赌博机/老虎机

相关VIP内容

【经典书】图论，322页pdf

【经典书】图论，322页pdf

专知会员服务

123+阅读 · 2021年10月14日

【斯坦福经典书】强化学习在金融应用，414页pdf

【斯坦福经典书】强化学习在金融应用，414页pdf

专知会员服务

127+阅读 · 2021年3月30日

【经典书】信息论原理，774页pdf

【经典书】信息论原理，774页pdf

专知会员服务

262+阅读 · 2021年3月22日

【经典书】统计强化学习：现代机器学习方法，206页pdf

【经典书】统计强化学习：现代机器学习方法，206页pdf

专知会员服务

81+阅读 · 2021年2月24日

【经典书】统计学理论，925页pdf

【经典书】统计学理论，925页pdf

专知会员服务

168+阅读 · 2020年12月6日

【斯坦福经典书】概率理论，400页pdf

专知会员服务

143+阅读 · 2020年12月3日

【经典书】深度学习技术型概述，106页pdf

专知会员服务

48+阅读 · 2020年12月2日

【经典书】Python金融大数据分析，566页pdf

【经典书】Python金融大数据分析，566页pdf

专知会员服务

124+阅读 · 2020年8月1日

【经典书】贝叶斯编程，378页pdf，Bayesian Programming

【经典书】贝叶斯编程，378页pdf，Bayesian Programming

专知会员服务

250+阅读 · 2020年5月18日

【经典书】机器学习高斯过程，266页pdf

【经典书】机器学习高斯过程，266页pdf

专知会员服务

235+阅读 · 2020年5月2日

热门VIP内容

开通专知VIP会员享更多权益服务

《复杂工程系统模型驱动设计决策支持系统：早期设计阶段挑战》最新138页

《日本陆上自卫队2040年作战方式与未来作战研究》最新23页slides

人工智能作为战争武器

《后勤保障》最新23页

相关资讯

【经典书】凸优化：算法与复杂度，130页pdf

【经典书】凸优化：算法与复杂度，130页pdf

专知

7+阅读 · 2021年11月16日

【经典书】全局优化算法：理论与应用，820页pdf

【经典书】全局优化算法：理论与应用，820页pdf

专知

40+阅读 · 2021年11月10日

【经典书】机器学习导论，234页pdf

【经典书】机器学习导论，234页pdf

专知

1+阅读 · 2021年4月20日

【斯坦福经典书】机器学习导论，188页pdf

【斯坦福经典书】机器学习导论，188页pdf

专知

0+阅读 · 2021年3月31日

【斯坦福经典书】强化学习在金融应用，414页pdf

【斯坦福经典书】强化学习在金融应用，414页pdf

专知

2+阅读 · 2021年3月30日

【经典书】信息论与统计: 教程，116页pdf

【经典书】信息论与统计: 教程，116页pdf

专知

2+阅读 · 2021年3月27日

【经典书】数理统计学，142页pdf

【经典书】数理统计学，142页pdf

专知

2+阅读 · 2021年3月25日

【斯坦福经典书】熵与信息论，311页pdf

【斯坦福经典书】熵与信息论，311页pdf

专知

5+阅读 · 2021年3月23日

最新《可解释人工智能》概述，50页ppt

最新《可解释人工智能》概述，50页ppt

专知

9+阅读 · 2021年3月17日

【经典书】线性代数，436页pdf

【经典书】线性代数，436页pdf

专知

3+阅读 · 2021年3月16日

相关基金

量子与经典关联全息成像研究

国家自然科学基金

2+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

统计学习理论中的分位数回归和MEE算法

国家自然科学基金

1+阅读 · 2012年12月31日

不确定性平衡优化理论及其应用

国家自然科学基金

1+阅读 · 2012年12月31日

求解非线性等式系统的滤子方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

张量分解与最优化及其在信息处理中的应用

国家自然科学基金

0+阅读 · 2011年12月31日

动态数据挖掘中的演化聚类模型与算法研究

国家自然科学基金

1+阅读 · 2011年12月31日

地面三维激光雷达数据处理理论及应用研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于损失函数的统计机器学习算法及其应用研究

国家自然科学基金

7+阅读 · 2009年12月31日

基于贝叶斯博弈的协同演化算法及其在交易Agent中的应用研究

国家自然科学基金

1+阅读 · 2009年12月31日

相关论文

Almost Optimal Algorithms for Two-player Zero-Sum Linear Mixture Markov Games

Arxiv

0+阅读 · 2022年4月20日

A stochastic Stein Variational Newton method

Arxiv

0+阅读 · 2022年4月19日

Formalizing Geometric Algebra in Lean

Arxiv

0+阅读 · 2022年4月19日

CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement Learning

CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement Learning

Arxiv

0+阅读 · 2022年4月18日

M-Estimation based on quasi-processes from discrete samples of Levy processes

Arxiv

0+阅读 · 2022年4月18日

Space-sequential particle filters for high-dimensional dynamical systems described by stochastic differential equations

Arxiv

0+阅读 · 2022年4月15日

Challenges for Open-domain Targeted Sentiment Analysis

Challenges for Open-domain Targeted Sentiment Analysis

Arxiv

1+阅读 · 2022年4月15日

Testing distributional assumptions of learning algorithms

Arxiv

0+阅读 · 2022年4月14日

Meta-learning in natural and artificial intelligence

Arxiv

10+阅读 · 2020年11月26日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

大家都在搜

CMU博士论文

无人机集群

久别重逢话双塔

OpenKG开源系列 | 海洋鱼类百科知识图谱（浙江大学）

微信扫码咨询专知VIP会员