We introduce OG-VLA, a novel architecture and learning framework that combines the generalization strengths of Vision Language Action models (VLAs) with the robustness of 3D-aware policies. We address the challenge of mapping natural language instructions and one or more RGBD observations to quasi-static robot actions. 3D-aware robot policies achieve state-of-the-art performance on precise robot manipulation tasks, but struggle with generalization to unseen instructions, scenes, and objects. On the other hand, VLAs excel at generalizing across instructions and scenes, but can be sensitive to camera and robot pose variations. We leverage prior knowledge embedded in language and vision foundation models to improve generalization of 3D-aware keyframe policies. OG-VLA unprojects input observations from diverse views into a point cloud which is then rendered from canonical orthographic views, ensuring input view invariance and consistency between input and output spaces. These canonical views are processed with a vision backbone, a Large Language Model (LLM), and an image diffusion model to generate images that encode the next position and orientation of the end-effector on the input scene. Evaluations on the Arnold and Colosseum benchmarks demonstrate state-of-the-art generalization to unseen environments, with over 40% relative improvements while maintaining robust performance in seen settings. We also show real-world adaption in 3 to 5 demonstrations along with strong generalization. Videos and resources at https://og-vla.github.io/


翻译:我们提出了OG-VLA,一种新颖的架构与学习框架,它结合了视觉语言动作模型(VLA)的泛化优势与三维感知策略的鲁棒性。我们致力于解决将自然语言指令及一个或多个RGBD观测映射到准静态机器人动作的挑战。三维感知机器人策略在精确机器人操作任务上实现了最先进的性能,但在泛化到未见过的指令、场景和物体方面存在困难。另一方面,VLA在跨指令和场景的泛化方面表现出色,但可能对相机和机器人姿态变化较为敏感。我们利用嵌入在语言和视觉基础模型中的先验知识,以提升三维感知关键帧策略的泛化能力。OG-VLA将来自不同视角的输入观测反投影为点云,随后从规范正交视角进行渲染,确保输入视角的不变性以及输入与输出空间之间的一致性。这些规范视图通过视觉骨干网络、大型语言模型(LLM)和图像扩散模型进行处理,以生成编码末端执行器在输入场景中下一个位置与方向的图像。在Arnold和Colosseum基准测试上的评估表明,该方法在未见环境中的泛化能力达到最先进水平,相对改进超过40%,同时在已见环境中保持稳健性能。我们还展示了在3到5次演示中的真实世界适应能力以及强大的泛化性能。视频与资源请访问:https://og-vla.github.io/

0
下载
关闭预览

相关内容

Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员