题目

通过元学习的贝叶斯自适应深度RL, VariBAD: A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning

关键字

元学习,变分推理,贝叶斯推理,最大期望,强化学习,深度学习,人工智能

简介

在未知环境中权衡探索和开发是最大程度地提高学习过程中预期回报的关键。 一种贝叶斯最优策略,它以最佳方式运行,不仅取决于环境状态,还取决于主体对环境的不确定性,决定其行动。 但是,除了最小的任务外,计算贝叶斯最佳策略是很困难的。 在本文中,我们介绍了变分贝叶斯自适应深度RL(variBAD),这是一种在未知环境中进行元学习以进行近似推理的方法,并直接在动作选择过程中合并任务不确定性。 在网格世界中,我们说明variBAD如何根据任务不确定性执行结构化的在线探索。 我们还评估了在meta-RL中广泛使用的MuJoCo域上的variBAD,并表明与现有方法相比,它在训练过程中获得了更高的回报。

作者

Luisa Zintgraf, Kyriacos Shiarlis, Maximilian Igl, Sebastian Schulze, Yarin Gal, Katja Hofmann, Shimon Whiteson

成为VIP会员查看完整内容
24

相关内容

Meta Learning,元学习,也叫 Learning to Learn(学会学习)。是继Reinforcement Learning(增强学习)之后又一个重要的研究分支。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
元学习(meta learning) 最新进展综述论文
专知会员服务
278+阅读 · 2020年5月8日
【Uber AI新论文】持续元学习,Learning to Continually Learn
专知会员服务
36+阅读 · 2020年2月27日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
RL圣经出中文版了
CreateAMind
19+阅读 · 2019年9月13日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
强化学习十大原则
专知
12+阅读 · 2018年9月17日
一文学习基于蒙特卡罗的强化学习方法(送书)
人工智能头条
7+阅读 · 2018年3月13日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
Arxiv
14+阅读 · 2019年9月11日
Meta-Learning with Implicit Gradients
Arxiv
13+阅读 · 2019年9月10日
Arxiv
6+阅读 · 2019年7月29日
Arxiv
7+阅读 · 2018年12月26日
Arxiv
5+阅读 · 2018年4月22日
VIP会员
相关VIP内容
元学习(meta learning) 最新进展综述论文
专知会员服务
278+阅读 · 2020年5月8日
【Uber AI新论文】持续元学习,Learning to Continually Learn
专知会员服务
36+阅读 · 2020年2月27日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
相关资讯
RL圣经出中文版了
CreateAMind
19+阅读 · 2019年9月13日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
强化学习十大原则
专知
12+阅读 · 2018年9月17日
一文学习基于蒙特卡罗的强化学习方法(送书)
人工智能头条
7+阅读 · 2018年3月13日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
微信扫码咨询专知VIP会员