Intelligent agents must pursue their goals in complex environments with partial information and often limited computational capacity. Reinforcement learning methods have achieved great success by creating agents that optimize engineered reward functions, but which often struggle to learn in sparse-reward environments, generally require many environmental interactions to perform well, and are typically computationally very expensive. Active inference is a model-based approach that directs agents to explore uncertain states while adhering to a prior model of their goal behaviour. This paper introduces an active inference agent which minimizes the novel free energy of the expected future. Our model is capable of solving sparse-reward problems with a very high sample efficiency due to its objective function, which encourages directed exploration of uncertain states. Moreover, our model is computationally very light and can operate in a fully online manner while achieving comparable performance to offline RL methods. We showcase the capabilities of our model by solving the mountain car problem, where we demonstrate its superior exploration properties and its robustness to observation noise, which in fact improves performance. We also introduce a novel method for approximating the prior model from the reward function, which simplifies the expression of complex objectives and improves performance over previous active inference approaches.


翻译:智能剂必须在复杂的环境中以部分信息和往往有限的计算能力追求其目标。强化学习方法已经取得了巨大成功,创建了优化设计奖励功能的代理,但往往难以在微薄的回报环境中学习,通常需要许多环境互动才能很好地运作,而且通常在计算上非常昂贵。积极的推论是一种基于模型的方法,它指导代理探索不确定状态,同时坚持其目标行为先前的模式。本文引入了一种积极的推论剂,将预期未来的新自由能量降到最低。我们的模型能够解决稀释问题,其抽样效率很高,因为它的客观功能鼓励直接探索不确定的状态。此外,我们的模型在计算上非常轻,可以完全在线运作,同时实现与离线RL方法的类似性能。我们通过解决山地汽车问题展示了模型的能力,在那里我们展示出其优异的勘探特性和对观测噪音的强大性能,这实际上提高了业绩。我们还引入了一种新的方法,将先前的模型与奖励功能相匹配,因为前者的模型简化了复杂目标的表达方式,改进了以往的性能。

0
下载
关闭预览

相关内容

自动结构变分推理,Automatic structured variational inference
专知会员服务
38+阅读 · 2020年2月10日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
Yoshua Bengio,使算法知道“为什么”
专知会员服务
7+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Learning more skills through optimistic exploration
Arxiv
0+阅读 · 2021年7月29日
Inferred successor maps for better transfer learning
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
7+阅读 · 2019年1月8日
Arxiv
7+阅读 · 2018年12月26日
Arxiv
3+阅读 · 2018年10月5日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
Relational Deep Reinforcement Learning
Arxiv
10+阅读 · 2018年6月28日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关论文
Learning more skills through optimistic exploration
Arxiv
0+阅读 · 2021年7月29日
Inferred successor maps for better transfer learning
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
7+阅读 · 2019年1月8日
Arxiv
7+阅读 · 2018年12月26日
Arxiv
3+阅读 · 2018年10月5日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
Relational Deep Reinforcement Learning
Arxiv
10+阅读 · 2018年6月28日
Top
微信扫码咨询专知VIP会员