具身规划 - 专知VIP

会员服务 ·

0

具身规划 · 具身智能 ·

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

引言想象一下，我们对一个家务机器人说：“嘿，帮我把客厅打扫一下，然后把那杯喝了一半的水倒掉。” 对于人类，这是一个非常简单的指令，但对机器人而言，这背后却隐藏着巨大的挑战。它需要理解什么是“客厅”，如何识别“喝了一半的水”，并规划出“先去客厅”、“找到杯子”、“拿起杯子”、“走到厨房水槽”、“倒水”、“放回杯子”等一系列连贯、合理的动作。

这个过程，正是具身人工智能（Embodied AI）研究的核心——构建能够在物理世界中感知、交互并完成任务的智能体。其中，具身规划（Embodied Planning）扮演着智能体“大脑”的关键角色。

那么，究竟什么是具身规划？

我们可以把它理解为：一个将高层次、多步骤的用户指令（例如“打扫房间并将所有物品归位”）有效地分解为机器人能够理解并顺序执行的一系列底层原子动作（如“移动到桌子前”、“抓取杯子”）的过程。这要求模型不仅具备高级推理和理解能力，还需要将抽象的语言概念与物理世界的感知和行动紧密“具身”结合。同时，它还要能应对执行过程中可能出现的异常和不确定性，以确保规划的鲁棒性和可落地性。

传统的AI规划方法虽然为此奠定了理论基石，但在处理模糊的自然语言、运用常识以及融合多模态信息方面，始终存在一些难以逾越的局限。近年来，大型语言模型（LLM）和多模态大模型（MLLM）的出现，为解决这些长期存在的难题开辟了新的路径。

这篇笔记将系统梳理具身规划的发展脉络。我们会先回顾奠定基础的经典规划方法，然后重点探讨由大模型驱动的现代研究，剖析其核心策略与挑战，并对领域的未来趋势进行讨论。

成为VIP会员查看完整内容

0

相关内容

具身规划

【ICML2025】通用智能体需要世界模型

【ICML2025】通用智能体需要世界模型

专知会员服务

20+阅读 · 6月4日

【NVDIA】Cosmos世界基础模型平台用于物理人工智能

【NVDIA】Cosmos世界基础模型平台用于物理人工智能

专知会员服务

27+阅读 · 1月13日

工业中的数字孪生：全面综述

工业中的数字孪生：全面综述

专知会员服务

67+阅读 · 2024年12月3日

图提示学习最新综述

图提示学习最新综述

专知会员服务

20+阅读 · 2024年8月28日

Al Agent--大模型时代重要落地方向

Al Agent--大模型时代重要落地方向

专知会员服务

101+阅读 · 2024年4月8日

视频文本预训练简述

视频文本预训练简述

专知会员服务

22+阅读 · 2022年7月24日

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

专知会员服务

42+阅读 · 2022年4月4日

【2021新书】ApachePulsar 实战，402页pdf

【2021新书】ApachePulsar 实战，402页pdf

专知会员服务

71+阅读 · 2021年12月29日

对比学习简述

专知会员服务

90+阅读 · 2021年6月29日

自回归模型:PixelCNN

自回归模型:PixelCNN

专知会员服务

27+阅读 · 2020年3月21日

Normalizing Flows入门(上)

Normalizing Flows入门(上)

AINLP

10+阅读 · 2020年8月1日

对比自监督学习

对比自监督学习

深度学习自然语言处理

34+阅读 · 2020年7月15日

2019最全目标检测指南

2019最全目标检测指南

计算机视觉life

13+阅读 · 2019年10月22日

Graph Neural Networks 综述

Graph Neural Networks 综述

计算机视觉life

30+阅读 · 2019年8月13日

PointNet系列论文解读

PointNet系列论文解读

人工智能前沿讲习班

17+阅读 · 2019年5月3日

情感计算综述

情感计算综述

人工智能学家

34+阅读 · 2019年4月6日

揭开GANs的神秘面纱

揭开GANs的神秘面纱

机器学习算法与Python学习

10+阅读 · 2019年2月27日

【强化学习】强化学习到深度强化学习、强化学习商业用例

【强化学习】强化学习到深度强化学习、强化学习商业用例

产业智能官

30+阅读 · 2019年2月9日

Kaggle比赛实战教程

Kaggle比赛实战教程

专知

14+阅读 · 2018年7月30日

Python NLP 入门教程

Python NLP 入门教程

大数据技术

20+阅读 · 2017年10月24日

声源中多因素变化性鲁棒的居家老年人精神状态分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

社会网秘密共享中的关键问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

2+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

43+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于非对称群体兴趣相关性并融合情境与群体信任的Web服务推荐研究

国家自然科学基金

1+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

海量数据流实时分发技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

PPP项目社会风险的机理分析、动态评估与综合治理研究

国家自然科学基金

0+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

170+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

40+阅读 · 2023年4月19日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

79+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

465+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

144+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

76+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

169+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

49+阅读 · 2023年3月22日

Lifelong Learning Metrics

Lifelong Learning Metrics

Arxiv

48+阅读 · 2022年1月20日

VIP会员

相关主题

相关VIP内容

【ICML2025】通用智能体需要世界模型

【ICML2025】通用智能体需要世界模型

专知会员服务

20+阅读 · 6月4日

【NVDIA】Cosmos世界基础模型平台用于物理人工智能

【NVDIA】Cosmos世界基础模型平台用于物理人工智能

专知会员服务

27+阅读 · 1月13日

工业中的数字孪生：全面综述

工业中的数字孪生：全面综述

专知会员服务

67+阅读 · 2024年12月3日

图提示学习最新综述

图提示学习最新综述

专知会员服务

20+阅读 · 2024年8月28日

Al Agent--大模型时代重要落地方向

Al Agent--大模型时代重要落地方向

专知会员服务

101+阅读 · 2024年4月8日

视频文本预训练简述

视频文本预训练简述

专知会员服务

22+阅读 · 2022年7月24日

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

专知会员服务

42+阅读 · 2022年4月4日

【2021新书】ApachePulsar 实战，402页pdf

【2021新书】ApachePulsar 实战，402页pdf

专知会员服务

71+阅读 · 2021年12月29日

对比学习简述

专知会员服务

90+阅读 · 2021年6月29日

自回归模型:PixelCNN

自回归模型:PixelCNN

专知会员服务

27+阅读 · 2020年3月21日

热门VIP内容

开通专知VIP会员享更多权益服务

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

【博士论文】神经网络中的元学习与组合泛化

核电人形机器人专题报告：工业应用场景巡礼

相关资讯

Normalizing Flows入门(上)

Normalizing Flows入门(上)

AINLP

10+阅读 · 2020年8月1日

对比自监督学习

对比自监督学习

深度学习自然语言处理

34+阅读 · 2020年7月15日

2019最全目标检测指南

2019最全目标检测指南

计算机视觉life

13+阅读 · 2019年10月22日

Graph Neural Networks 综述

Graph Neural Networks 综述

计算机视觉life

30+阅读 · 2019年8月13日

PointNet系列论文解读

PointNet系列论文解读

人工智能前沿讲习班

17+阅读 · 2019年5月3日

情感计算综述

情感计算综述

人工智能学家

34+阅读 · 2019年4月6日

揭开GANs的神秘面纱

揭开GANs的神秘面纱

机器学习算法与Python学习

10+阅读 · 2019年2月27日

【强化学习】强化学习到深度强化学习、强化学习商业用例

【强化学习】强化学习到深度强化学习、强化学习商业用例

产业智能官

30+阅读 · 2019年2月9日

Kaggle比赛实战教程

Kaggle比赛实战教程

专知

14+阅读 · 2018年7月30日

Python NLP 入门教程

Python NLP 入门教程

大数据技术

20+阅读 · 2017年10月24日

相关基金

声源中多因素变化性鲁棒的居家老年人精神状态分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

社会网秘密共享中的关键问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

2+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

43+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于非对称群体兴趣相关性并融合情境与群体信任的Web服务推荐研究

国家自然科学基金

1+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

海量数据流实时分发技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

PPP项目社会风险的机理分析、动态评估与综合治理研究

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

170+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

40+阅读 · 2023年4月19日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

79+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

465+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

144+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

76+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

169+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

49+阅读 · 2023年3月22日

Lifelong Learning Metrics

Lifelong Learning Metrics

Arxiv

48+阅读 · 2022年1月20日

微信扫码咨询专知VIP会员