在构建多模态自主智能体时,一个根本性的挑战在于实现目标导向的推理。这种推理指的是在正确动作并非一目了然时,有意识地利用额外的计算来规划、验证并选择合适的行为。尽管强化学习(RL)通过交互为行为建模提供了一个通用框架,但标准方法往往将推理简化为刺激—反应的映射,导致难以在任务和情境之间实现泛化。
本论文通过发展推理增强的强化学习方法来应对这些局限性,该方法整合了结构化记忆与具身的认知策略来引导行动。首先,我们利用记忆作为引导目标导向推理的机制,研究了具备结构化外部记忆的记忆增强型智能体,它们能够在规划过程中利用额外的上下文信息。实验表明,这些记忆系统使智能体能够在未见过的环境和用户特定的日常模式下实现泛化,因为其决策是基于先前经验进行的。
其次,我们将强化学习与记忆增强和视觉扎根结合起来,以学习更优的目标驱动推理策略。这种结构化的扎根形式能够引发丰富且可解释的认知行为,类似于人类的执行功能,例如视觉验证和目标导向搜索,从而在多样化的智能体任务和视觉推理任务中显著提升性能。
第三,我们将这些计算进展与人类神经过程联系起来,证明了在空间推理任务上训练的模型能够预测人类顶叶视觉通路的响应,揭示了不同脑区之间的功能差异,并将这些模型验证为目标导向感知的计算探针。 综合而言,这些贡献建立了一个用于多模态自主智能体的目标导向推理统一框架,有效地整合了记忆增强、强化学习、视觉扎根以及受生物启发的神经架构。