在构建多模态自主智能体时,一个根本性的挑战在于实现目标导向的推理。这种推理指的是在正确动作并非一目了然时,有意识地利用额外的计算来规划、验证并选择合适的行为。尽管强化学习(RL)通过交互为行为建模提供了一个通用框架,但标准方法往往将推理简化为刺激—反应的映射,导致难以在任务和情境之间实现泛化。

本论文通过发展推理增强的强化学习方法来应对这些局限性,该方法整合了结构化记忆与具身的认知策略来引导行动。首先,我们利用记忆作为引导目标导向推理的机制,研究了具备结构化外部记忆的记忆增强型智能体,它们能够在规划过程中利用额外的上下文信息。实验表明,这些记忆系统使智能体能够在未见过的环境和用户特定的日常模式下实现泛化,因为其决策是基于先前经验进行的。

其次,我们将强化学习与记忆增强和视觉扎根结合起来,以学习更优的目标驱动推理策略。这种结构化的扎根形式能够引发丰富且可解释的认知行为,类似于人类的执行功能,例如视觉验证和目标导向搜索,从而在多样化的智能体任务和视觉推理任务中显著提升性能。

第三,我们将这些计算进展与人类神经过程联系起来,证明了在空间推理任务上训练的模型能够预测人类顶叶视觉通路的响应,揭示了不同脑区之间的功能差异,并将这些模型验证为目标导向感知的计算探针。 综合而言,这些贡献建立了一个用于多模态自主智能体的目标导向推理统一框架,有效地整合了记忆增强、强化学习、视觉扎根以及受生物启发的神经架构。

成为VIP会员查看完整内容
2

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【CMU博士论文】基于机器学习的可信科学推理
专知会员服务
15+阅读 · 5月26日
【MIT博士论文】理解与提升机器学习模型的表征鲁棒性
专知会员服务
27+阅读 · 2024年8月26日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
论文浅尝 | 远程监督关系抽取的生成式对抗训练
开放知识图谱
17+阅读 · 2018年7月12日
国家自然科学基金
15+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
482+阅读 · 2023年3月31日
Arxiv
79+阅读 · 2023年3月26日
Arxiv
174+阅读 · 2023年3月24日
Arxiv
25+阅读 · 2023年3月17日
Arxiv
10+阅读 · 2020年11月26日
Arxiv
26+阅读 · 2019年3月5日
VIP会员
相关基金
国家自然科学基金
15+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
相关论文
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
482+阅读 · 2023年3月31日
Arxiv
79+阅读 · 2023年3月26日
Arxiv
174+阅读 · 2023年3月24日
Arxiv
25+阅读 · 2023年3月17日
Arxiv
10+阅读 · 2020年11月26日
Arxiv
26+阅读 · 2019年3月5日
微信扫码咨询专知VIP会员