主动推理是一种关于感知和行动的统一理论,其基础是大脑通过最小化自由能来维持世界的内部模型。从行为角度来看,主动推理代理可以被视为自我证明的存在,通过行动来实现他们的乐观预测,即首选结果或目标。相反,强化学习需要人为设计的奖励来实现任何期望的结果。尽管主动推理可以为控制提供一个更自然的自监督目标,但它的适用性受到限制,因为该方法在复杂环境下可扩展性不足。在这项工作中,我们提出了一个主动推理的对比目标,这大大减少了学习agent生成模型和规划未来行动的计算负担。在基于图像的任务中,我们的方法比基于可能性的主动推理表现得明显更好,同时计算成本更低,更容易训练。我们将其与强化学习代理进行了比较,这些代理可以获得人类设计的奖励功能,表明我们的方法与它们的表现非常匹配。最后,我们还表明对比方法在环境干扰的情况下有显著的更好的表现。