Humans learn locomotion through visual observation, interpreting visual content first before imitating actions. However, state-of-the-art humanoid locomotion systems rely on either curated motion capture trajectories or sparse text commands, leaving a critical gap between visual understanding and control. Text-to-motion methods suffer from semantic sparsity and staged pipeline errors, while video-based approaches only perform mechanical pose mimicry without genuine visual understanding. We propose RoboMirror, the first retargeting-free video-to-locomotion framework embodying "understand before you imitate". Leveraging VLMs, it distills raw egocentric/third-person videos into visual motion intents, which directly condition a diffusion-based policy to generate physically plausible, semantically aligned locomotion without explicit pose reconstruction or retargeting. Extensive experiments validate the effectiveness of RoboMirror, it enables telepresence via egocentric videos, drastically reduces third-person control latency by 80%, and achieves a 3.7% higher task success rate than baselines. By reframing humanoid control around video understanding, we bridge the visual understanding and action gap.


翻译:人类通过视觉观察学习运动,先理解视觉内容再模仿动作。然而,当前最先进的人形机器人运动系统依赖于精心设计的运动捕捉轨迹或稀疏的文本指令,导致视觉理解与控制之间存在关键鸿沟。文本到运动方法受限于语义稀疏性和分阶段流水线误差,而基于视频的方法仅进行机械的姿态模仿,缺乏真正的视觉理解。我们提出RoboMirror,首个无需重定向的"先理解后模仿"视频到运动框架。该框架利用视觉语言模型,将原始第一人称/第三人称视频提炼为视觉运动意图,并直接作为基于扩散策略的条件输入,以生成物理合理、语义对齐的运动,无需显式的姿态重建或重定向。大量实验验证了RoboMirror的有效性:它支持通过第一人称视频实现远程临场感,将第三人称控制延迟大幅降低80%,并比基线方法获得高出3.7%的任务成功率。通过围绕视频理解重构人形机器人控制范式,我们成功弥合了视觉理解与行动执行之间的鸿沟。

0
下载
关闭预览

相关内容

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应
专知会员服务
15+阅读 · 2025年8月5日
Python图像处理,366页pdf,Image Operators Image Processing in Python
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员