本论文围绕实现通用具身智能体的目标,探讨了两个关键研究方向:其一是开发逼真且大规模的基准测试与环境,其二是设计学习框架——尤其是动作空间表示——以支持长时序移动操作任务中的高效策略学习。 第一项工作建立了一个用于基准测试与智能体训练的闭环生态系统。从 iGibson 1.0 和 2.0 开始,我们开发了可支持复杂物体交互的物理交互式三维仿真平台,模拟真实的家庭环境。在此基础上,我们提出了 BEHAVIOR 和 BEHAVIOR-1K 基准测试,分别涵盖 100 和 1000 项日常家庭活动。这些任务基于人类时间使用数据构建,使用灵活的基于逻辑的语言进行定义,并辅以人类虚拟现实演示。为实现可扩展的数据驱动策略训练,我们提出了 MoMaGen,这是一种示范生成方法,可基于单一人类演示合成数千条多样化的轨迹。 第二项工作探讨了动作空间设计作为归纳偏置在解决长时序机器人任务中的作用。我们首先提出 HRL4IN,这是一种分层强化学习方法,通过高层末端执行器目标对交互式导航进行分解。随后我们引入 ReLMoGen,这是一种混合方法,在空间目标空间中进行高层探索,并结合低层运动生成以实现高效执行。最后,Chain of Code 利用大型语言模型(LLMs)生成可执行代码与伪代码,使智能体能够将算法推理与常识推理相结合以完成任务。 综上所述,这些研究工作共同推进了构建具备物理能力、语义理解能力以及对人类对齐的具身智能体的目标。

成为VIP会员查看完整内容
2

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【博士论文】连接状态和行动:迈向持续强化学习
专知会员服务
24+阅读 · 2024年1月31日
【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度
【论文笔记】基于强化学习的人机对话
专知
20+阅读 · 2019年9月21日
论文浅尝 | 采用多层注意力机制的事件检测
开放知识图谱
24+阅读 · 2019年8月24日
论文浅尝 | 一种嵌入效率极高的 node embedding 方式
开放知识图谱
13+阅读 · 2019年5月12日
【智能制造】新一代智能制造:人工智能与智能制造
产业智能官
17+阅读 · 2018年8月11日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2012年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Arxiv
170+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
467+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2012年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员