用于机器学习的贝叶斯方法已经被广泛研究,产生了将先验信息纳入推理算法的原则方法。本文对贝叶斯方法在强化学习(RL)范式中的作用进行了深入的评述。在RL中整合贝叶斯推理的主要动机是,它提供了一种优雅的行动选择(探索/开发)方法,作为学习中的不确定性的函数,并且它提供了一种将先验知识整合到算法中的机制。

贝叶斯强化学习:综述首先讨论了简单单步Bandit模型中的贝叶斯推理模型和方法。然后回顾了最近关于基于模型的RL的贝叶斯方法的广泛文献,其中先验信息可以表达在马尔可夫模型的参数上。它还提出了无模型RL的贝叶斯方法,其中先验是在值函数或策略类上表示的。

《贝叶斯强化学习》是一个全面的参述,为学生和研究人员与兴趣的贝叶斯RL算法及其理论和经验性质。

成为VIP会员查看完整内容
109

相关内容

专知会员服务
125+阅读 · 2021年8月25日
专知会员服务
123+阅读 · 2021年8月4日
专知会员服务
79+阅读 · 2021年5月4日
【斯坦福经典书】机器学习导论,188页pdf
专知会员服务
77+阅读 · 2021年3月31日
【经典书】数理统计学,142页pdf
专知会员服务
96+阅读 · 2021年3月25日
专知会员服务
112+阅读 · 2021年3月23日
【经典书】信息论原理,774页pdf
专知会员服务
255+阅读 · 2021年3月22日
【经典书】统计学理论,925页pdf
专知会员服务
165+阅读 · 2020年12月6日
专知会员服务
139+阅读 · 2020年12月3日
机器学习速查手册,135页pdf
专知会员服务
340+阅读 · 2020年3月15日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
最新《多任务学习》综述,39页pdf
专知
28+阅读 · 2020年7月10日
经典书《斯坦福大学-多智能体系统》532页pdf
强化学习精品书籍
平均机器
25+阅读 · 2019年1月2日
机器学习(36)之协同过滤典型算法概述【精华】
机器学习算法与Python学习
4+阅读 · 2018年1月20日
综述 | 知识图谱发展概述
PaperWeekly
75+阅读 · 2017年11月3日
Arxiv
18+阅读 · 2021年3月16日
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
Arxiv
3+阅读 · 2018年10月18日
Arxiv
22+阅读 · 2018年8月30日
VIP会员
相关VIP内容
专知会员服务
125+阅读 · 2021年8月25日
专知会员服务
123+阅读 · 2021年8月4日
专知会员服务
79+阅读 · 2021年5月4日
【斯坦福经典书】机器学习导论,188页pdf
专知会员服务
77+阅读 · 2021年3月31日
【经典书】数理统计学,142页pdf
专知会员服务
96+阅读 · 2021年3月25日
专知会员服务
112+阅读 · 2021年3月23日
【经典书】信息论原理,774页pdf
专知会员服务
255+阅读 · 2021年3月22日
【经典书】统计学理论,925页pdf
专知会员服务
165+阅读 · 2020年12月6日
专知会员服务
139+阅读 · 2020年12月3日
机器学习速查手册,135页pdf
专知会员服务
340+阅读 · 2020年3月15日
相关资讯
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
最新《多任务学习》综述,39页pdf
专知
28+阅读 · 2020年7月10日
经典书《斯坦福大学-多智能体系统》532页pdf
强化学习精品书籍
平均机器
25+阅读 · 2019年1月2日
机器学习(36)之协同过滤典型算法概述【精华】
机器学习算法与Python学习
4+阅读 · 2018年1月20日
综述 | 知识图谱发展概述
PaperWeekly
75+阅读 · 2017年11月3日
微信扫码咨询专知VIP会员