General-purpose robots require decision-making models that generalize across diverse tasks and environments. Recent works build robot foundation models by extending multimodal large language models (MLLMs) with action outputs, creating vision-language-action (VLA) systems. These efforts are motivated by the intuition that MLLMs' large-scale language and image pretraining can be effectively transferred to the action output modality. In this work, we explore an alternative paradigm of using large-scale video pretraining as a primary modality for building robot foundation models. Unlike static images and language, videos capture spatio-temporal sequences of states and actions in the physical world that are naturally aligned with robotic behavior. We curate an internet-scale video dataset of human activities and task demonstrations, and train, for the first time at a foundation-model scale, an open video model for generative robotics planning. The model produces zero-shot video plans for novel scenes and tasks, which we post-process to extract executable robot actions. We evaluate task-level generalization through third-party selected tasks in the wild and real-robot experiments, demonstrating successful physical execution. Together, these results show robust instruction following, strong generalization, and real-world feasibility. We release both the model and dataset to support open, reproducible video-based robot learning. Our website is available at https://www.boyuan.space/large-video-planner/.


翻译:通用机器人需要能够在多样化任务和环境中泛化的决策模型。近期研究通过扩展多模态大语言模型(MLLMs)以包含动作输出,构建了视觉-语言-动作(VLA)系统,从而建立机器人基础模型。这些工作的动机源于一种直觉:MLLMs 的大规模语言和图像预训练可以有效地迁移到动作输出模态。在本研究中,我们探索了一种替代范式,即利用大规模视频预训练作为构建机器人基础模型的主要模态。与静态图像和语言不同,视频捕捉了物理世界中状态与动作的时空序列,这些序列与机器人行为天然对齐。我们策划了一个互联网规模的人类活动与任务演示视频数据集,并首次以基础模型规模训练了一个用于生成式机器人规划的开放视频模型。该模型能够为零样本的新场景和任务生成视频规划,我们通过后处理提取可执行的机器人动作。我们通过在开放环境中由第三方选定的任务以及真实机器人实验评估任务级泛化能力,展示了成功的物理执行。综合来看,这些结果显示了鲁棒的指令跟随能力、强大的泛化性能以及现实世界的可行性。我们同时发布了模型与数据集,以支持开放、可复现的基于视频的机器人学习。我们的网站地址为 https://www.boyuan.space/large-video-planner/。

0
下载
关闭预览

相关内容

【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员