Embodied robotic AI systems designed to manage complex daily tasks rely on a task planner to understand and decompose high-level tasks. While most research focuses on enhancing the task-understanding abilities of LLMs/VLMs through fine-tuning or chain-of-thought prompting, this paper argues that defining the planned skill set is equally crucial. To handle the complexity of daily environments, the skill set should possess a high degree of generalization ability. Empirically, more abstract expressions tend to be more generalizable. Therefore, we propose to abstract the planned result as a set of meta-actions. Each meta-action comprises three components: {move/rotate, end-effector status change, relationship with the environment}. This abstraction replaces human-centric concepts, such as grasping or pushing, with the robot's intrinsic functionalities. As a result, the planned outcomes align seamlessly with the complete range of actions that the robot is capable of performing. Furthermore, to ensure that the LLM/VLM accurately produces the desired meta-action format, we employ the Retrieval-Augmented Generation (RAG) technique, which leverages a database of human-annotated planning demonstrations to facilitate in-context learning. As the system successfully completes more tasks, the database will self-augment to continue supporting diversity. The meta-action set and its integration with RAG are two novel contributions of our planner, denoted as MaP-AVR, the meta-action planner for agents composed of VLM and RAG. To validate its efficacy, we design experiments using GPT-4o as the pre-trained LLM/VLM model and OmniGibson as our robotic platform. Our approach demonstrates promising performance compared to the current state-of-the-art method. Project page: https://map-avr.github.io/.


翻译:旨在处理复杂日常任务的具身机器人AI系统依赖于任务规划器来理解并分解高层任务。尽管大多数研究通过微调或思维链提示来增强LLM/VLM的任务理解能力,本文认为定义规划技能集同样至关重要。为应对日常环境的复杂性,技能集应具备高度的泛化能力。经验表明,更抽象的表述往往具有更好的泛化性。因此,我们提出将规划结果抽象为一组元动作。每个元动作包含三个组成部分:{移动/旋转、末端执行器状态变化、与环境的交互关系}。这种抽象将以人为中心的概念(如抓取或推动)替换为机器人的内在功能。从而使规划结果与机器人能够执行的完整动作范围无缝对齐。此外,为确保LLM/VLM准确生成所需的元动作格式,我们采用检索增强生成技术,该技术利用人工标注的规划演示数据库来促进上下文学习。随着系统成功完成更多任务,数据库将自我扩充以持续支持多样性。元动作集及其与RAG的集成是我们的规划器(称为MaP-AVR,即由VLM和RAG构成的智能体元动作规划器)的两项新颖贡献。为验证其有效性,我们设计实验使用GPT-4o作为预训练的LLM/VLM模型,并以OmniGibson作为机器人平台。与当前最先进方法相比,我们的方法展现出有前景的性能。项目页面:https://map-avr.github.io/。

0
下载
关闭预览

相关内容

图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员