The capability of performing long-horizon, language-guided robotic manipulation tasks critically relies on leveraging historical information and generating coherent action sequences. However, such capabilities are often overlooked by existing Vision-Language-Action (VLA) models. To solve this challenge, we propose LoLA (Long Horizon Latent Action Learning), a framework designed for robot manipulation that integrates long-term multi-view observations and robot proprioception to enable multi-step reasoning and action generation. We first employ Vision-Language Models to encode rich contextual features from historical sequences and multi-view observations. We further introduces a key module, State-Aware Latent Re-representation, which transforms visual inputs and language commands into actionable robot motion space. Unlike existing VLA approaches that merely concatenate robot proprioception (e.g., joint angles) with VL embeddings, this module leverages such robot states to explicitly ground VL representations in physical scale through a learnable "embodiment-anchored" latent space. We trained LoLA on diverse robotic pre-training datasets and conducted extensive evaluations on simulation benchmarks (SIMPLER and LIBERO), as well as two real-world tasks on Franka and Bi-Manual Aloha robots. Results show that LoLA significantly outperforms prior state-of-the-art methods (e.g., pi0), particularly in long-horizon manipulation tasks.


翻译:执行长时域、语言引导的机器人操作任务的能力,关键依赖于对历史信息的利用和连贯动作序列的生成。然而,现有的视觉-语言-动作模型常常忽视了这种能力。为解决这一挑战,我们提出了LoLA(长时域潜在动作学习),这是一个为机器人操作设计的框架,它集成了长期多视角观测和机器人本体感知,以实现多步推理和动作生成。我们首先利用视觉-语言模型从历史序列和多视角观测中编码丰富的上下文特征。我们进一步引入了一个关键模块——状态感知潜在重表征模块,该模块将视觉输入和语言指令转化为可执行的机器人运动空间。与现有仅将机器人本体感知(如关节角度)与视觉-语言嵌入简单拼接的VLA方法不同,该模块利用此类机器人状态,通过一个可学习的“具身锚定”潜在空间,将视觉-语言表征显式地锚定在物理尺度上。我们在多样化的机器人预训练数据集上训练了LoLA,并在仿真基准(SIMPLER和LIBERO)以及Franka和双臂Aloha机器人的两项真实世界任务上进行了广泛评估。结果表明,LoLA显著优于先前的先进方法(例如pi0),尤其是在长时域操作任务中。

0
下载
关闭预览

相关内容

读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员