主动推理是一种关于感知和行动的统一理论,其基础是大脑通过最小化自由能来维持世界的内部模型。从行为角度来看,主动推理代理可以被视为自我证明的存在,通过行动来实现他们的乐观预测,即首选结果或目标。相反,强化学习需要人为设计的奖励来实现任何期望的结果。尽管主动推理可以为控制提供一个更自然的自监督目标,但它的适用性受到限制,因为该方法在复杂环境下可扩展性不足。在这项工作中,我们提出了一个主动推理的对比目标,这大大减少了学习agent生成模型和规划未来行动的计算负担。在基于图像的任务中,我们的方法比基于可能性的主动推理表现得明显更好,同时计算成本更低,更容易训练。我们将其与强化学习代理进行了比较,这些代理可以获得人类设计的奖励功能,表明我们的方法与它们的表现非常匹配。最后,我们还表明对比方法在环境干扰的情况下有显著的更好的表现。

https://arxiv.org/abs/2110.10083

成为VIP会员查看完整内容
29

相关内容

【NeurIPS2021】学习用于分布外预测的因果语义表示
专知会员服务
17+阅读 · 2021年11月19日
【NeurIPS2021】去栅格化的矢量图识别
专知会员服务
15+阅读 · 2021年11月18日
【NeurIPS2021】用于视频分割的密集无监督学习
专知会员服务
14+阅读 · 2021年11月14日
专知会员服务
9+阅读 · 2021年10月17日
专知会员服务
13+阅读 · 2021年10月13日
专知会员服务
22+阅读 · 2021年10月6日
【NeurIPS2020 】 数据扩充的图对比学习
专知会员服务
48+阅读 · 2020年11月9日
最新《对比监督学习》综述论文,20页pdf
专知会员服务
82+阅读 · 2020年11月5日
专知会员服务
28+阅读 · 2020年10月2日
【NeurIPS2020】图网的主邻域聚合
专知会员服务
32+阅读 · 2020年9月27日
【NeurIPS2020 】数据扩充的图对比学习
专知
9+阅读 · 2020年11月9日
【NeurIPS2020】无限可能的联合对比学习
专知
3+阅读 · 2020年10月2日
对比自监督学习
深度学习自然语言处理
34+阅读 · 2020年7月15日
在稀疏和欠明确奖励中学习泛化
谷歌开发者
6+阅读 · 2019年3月20日
Arxiv
0+阅读 · 2021年12月16日
Arxiv
0+阅读 · 2021年12月15日
Frustratingly Simple Few-Shot Object Detection
Arxiv
3+阅读 · 2020年3月16日
Arxiv
5+阅读 · 2019年4月8日
VIP会员
相关VIP内容
【NeurIPS2021】学习用于分布外预测的因果语义表示
专知会员服务
17+阅读 · 2021年11月19日
【NeurIPS2021】去栅格化的矢量图识别
专知会员服务
15+阅读 · 2021年11月18日
【NeurIPS2021】用于视频分割的密集无监督学习
专知会员服务
14+阅读 · 2021年11月14日
专知会员服务
9+阅读 · 2021年10月17日
专知会员服务
13+阅读 · 2021年10月13日
专知会员服务
22+阅读 · 2021年10月6日
【NeurIPS2020 】 数据扩充的图对比学习
专知会员服务
48+阅读 · 2020年11月9日
最新《对比监督学习》综述论文,20页pdf
专知会员服务
82+阅读 · 2020年11月5日
专知会员服务
28+阅读 · 2020年10月2日
【NeurIPS2020】图网的主邻域聚合
专知会员服务
32+阅读 · 2020年9月27日
相关资讯
微信扫码咨询专知VIP会员