我们假设好奇心是进化过程中发现的一种机制,它鼓励个体在生命早期进行有意义的探索,从而使个体接触到能够在其一生中获得高回报的经历。我们将产生好奇行为的问题表述为元学习的问题之一:一个外环将在一个好奇心机制的空间中搜索,该机制动态地适应代理的奖励信号,而一个内环将使用适应的奖励信号执行标准的强化学习。然而,目前基于神经网络权值传递的meta-RL方法只在非常相似的任务之间进行了推广。为了扩展泛化,我们提出使用元学习算法:类似于ML论文中人类设计的代码片段。我们丰富的程序语言将神经网络与其他构建模块(如缓冲区、最近邻模块和自定义丢失函数)结合在一起。我们通过实验证明了该方法的有效性,发现了两种新的好奇心算法,它们在图像输入网格导航、acrobot、lunar lander、ant和hopper等不同领域的性能与人类设计的公开发布的好奇心算法相当,甚至更好。

成为VIP会员查看完整内容
33

相关内容

Meta Learning,元学习,也叫 Learning to Learn(学会学习)。是继Reinforcement Learning(增强学习)之后又一个重要的研究分支。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
元学习(meta learning) 最新进展综述论文
专知会员服务
278+阅读 · 2020年5月8日
【普林斯顿大学-微软】加权元学习,Weighted Meta-Learning
专知会员服务
39+阅读 · 2020年3月25日
麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》
专知会员服务
50+阅读 · 2020年2月19日
当深度强化学习遇见图神经网络
专知
224+阅读 · 2019年10月21日
17种深度强化学习算法用Pytorch实现
新智元
30+阅读 · 2019年9月16日
元学习(Meta-Learning) 综述及五篇顶会论文推荐
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
Meta-Learning 元学习:学会快速学习
GAN生成式对抗网络
20+阅读 · 2018年12月8日
OpenAI提出Reptile:可扩展的元学习算法
深度学习世界
7+阅读 · 2018年3月9日
OpenAI发布大规模元学习算法Reptile
AI前线
6+阅读 · 2018年3月9日
Arxiv
24+阅读 · 2020年3月11日
Meta-Learning with Implicit Gradients
Arxiv
13+阅读 · 2019年9月10日
Learning by Abstraction: The Neural State Machine
Arxiv
6+阅读 · 2019年7月11日
Arxiv
26+阅读 · 2019年3月5日
Arxiv
136+阅读 · 2018年10月8日
Large-Scale Study of Curiosity-Driven Learning
Arxiv
8+阅读 · 2018年8月13日
Arxiv
8+阅读 · 2018年6月19日
VIP会员
相关资讯
当深度强化学习遇见图神经网络
专知
224+阅读 · 2019年10月21日
17种深度强化学习算法用Pytorch实现
新智元
30+阅读 · 2019年9月16日
元学习(Meta-Learning) 综述及五篇顶会论文推荐
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
Meta-Learning 元学习:学会快速学习
GAN生成式对抗网络
20+阅读 · 2018年12月8日
OpenAI提出Reptile:可扩展的元学习算法
深度学习世界
7+阅读 · 2018年3月9日
OpenAI发布大规模元学习算法Reptile
AI前线
6+阅读 · 2018年3月9日
微信扫码咨询专知VIP会员