用于机器学习的贝叶斯方法已经被广泛研究,产生了将先验信息纳入推理算法的原则方法。本文对贝叶斯方法在强化学习(RL)范式中的作用进行了深入的评述。在RL中整合贝叶斯推理的主要动机是,它提供了一种优雅的行动选择(探索/开发)方法,作为学习中的不确定性的函数,并且它提供了一种将先验知识整合到算法中的机制。
贝叶斯强化学习:综述首先讨论了简单单步Bandit模型中的贝叶斯推理模型和方法。然后回顾了最近关于基于模型的RL的贝叶斯方法的广泛文献,其中先验信息可以表达在马尔可夫模型的参数上。它还提出了无模型RL的贝叶斯方法,其中先验是在值函数或策略类上表示的。
《贝叶斯强化学习》是一个全面的参述,为学生和研究人员与兴趣的贝叶斯RL算法及其理论和经验性质。
本文的主要目的是对BRL算法及其理论和经验性质进行全面的综述。
在第二章,我们提供了一个主要的数学概念和技术的回顾,在整个论文中使用。第三章利用bandit框架研究了单步决策的贝叶斯学习方法。这一节既是在一个易于理解的更简单的环境中阐述BRL的潜力,也是一个独立的兴趣点,因为bandit 具有广泛的应用。这里给出的主要结果是理论性质的,概述了遗憾最小化标准的已知性能界限。第四章回顾了现有的基于模型的BRL方法,其中后验是通过系统动力学模型的参数来表示的。第5章重点讨论BRL方法,这些方法不明确地学习系统的模型,而是在后一种方法在解空间中表达。第6章重点介绍了BRL在处理参数不确定性导致的风险方面的一个特殊优势,并调查了几种将此类风险纳入决策过程的方法。最后,第七章讨论了针对特殊问题(PAC-Bayes模型选择、逆RL、多智能体RL和多任务RL)的BRL的各种扩展
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
专知,专业可信的人工智能知识分发
,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询!
点击“
阅读原文
”,了解使用
专知
,查看获取5000+AI主题知识资源