While leveraging abundant human videos and simulated robot data poses a scalable solution to the scarcity of real-world robot data, the generalization capability of existing vision-language-action models (VLAs) remains limited by mismatches in camera views, visual appearance, and embodiment morphologies. To overcome this limitation, we propose MiVLA, a generalizable VLA empowered by human-robot mutual imitation pre-training, which leverages inherent behavioral similarity between human hands and robotic arms to build a foundation of strong behavioral priors for both human actions and robotic control. Specifically, our method utilizes kinematic rules with left/right hand coordinate systems for bidirectional alignment between human and robot action spaces. Given human or simulated robot demonstrations, MiVLA is trained to forecast behavior trajectories for one embodiment, and imitate behaviors for another one unseen in the demonstration. Based on this mutual imitation, it integrates the behavioral fidelity of real-world human data with the manipulative diversity of simulated robot data into a unified model, thereby enhancing the generalization capability for downstream tasks. Extensive experiments conducted on both simulation and real-world platforms with three robots (ARX, PiPer and LocoMan), demonstrate that MiVLA achieves strong improved generalization capability, outperforming state-of-the-art VLAs (e.g., $\boldsymbolπ_{0}$, $\boldsymbolπ_{0.5}$ and H-RDT) by 25% in simulation, and 14% in real-world robot control tasks.


翻译:尽管利用丰富的人类视频与仿真机器人数据为解决真实世界机器人数据稀缺问题提供了可扩展的途径,但现有视觉-语言-动作模型(VLA)的泛化能力仍受限于相机视角、视觉外观与具身形态之间的不匹配。为突破这一局限,我们提出MiVLA——一种通过人机互模仿预训练增强泛化能力的VLA。该方法利用人手与机械臂之间固有的行为相似性,为人类动作与机器人控制构建了强行为先验的基础。具体而言,我们基于左右手坐标系运动学规则实现人类与机器人动作空间的双向对齐。给定人类或仿真机器人示范数据,MiVLA被训练为能够预测某一具身的未来行为轨迹,并模仿示范中未出现的另一具身的行为。通过这种互模仿机制,模型将真实人类数据的行为保真度与仿真机器人数据的操作多样性整合到统一框架中,从而提升下游任务的泛化能力。在仿真环境及三种机器人平台(ARX、PiPer与LocoMan)上进行的广泛实验表明,MiVLA显著提升了泛化性能:在仿真任务中超越当前最优VLA模型(如$\boldsymbolπ_{0}$、$\boldsymbolπ_{0.5}$与H-RDT)25%,在真实机器人控制任务中提升14%。

0
下载
关闭预览

相关内容

图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员