Humans learn locomotion through visual observation, interpreting visual content first before imitating actions. However, state-of-the-art humanoid locomotion systems rely on either curated motion capture trajectories or sparse text commands, leaving a critical gap between visual understanding and control. Text-to-motion methods suffer from semantic sparsity and staged pipeline errors, while video-based approaches only perform mechanical pose mimicry without genuine visual understanding. We propose RoboMirror, the first retargeting-free video-to-locomotion framework embodying "understand before you imitate". Leveraging VLMs, it distills raw egocentric/third-person videos into visual motion intents, which directly condition a diffusion-based policy to generate physically plausible, semantically aligned locomotion without explicit pose reconstruction or retargeting. Extensive experiments validate the effectiveness of RoboMirror, it enables telepresence via egocentric videos, drastically reduces third-person control latency by 80%, and achieves a 3.7% higher task success rate than baselines. By reframing humanoid control around video understanding, we bridge the visual understanding and action gap.


翻译:人类通过视觉观察学习步态运动,先理解视觉内容再模仿动作。然而,当前最先进的人形机器人步态系统要么依赖人工筛选的运动捕捉轨迹,要么依赖稀疏的文本指令,在视觉理解与控制之间仍存在关键鸿沟。文本到运动方法受限于语义稀疏性和分阶段流水线误差,而基于视频的方法仅执行机械的姿态模仿,缺乏真正的视觉理解。我们提出RoboMirror——首个无需重定向的视频到步态框架,其核心是“先理解后模仿”。该框架利用视觉语言模型,将原始第一人称/第三人称视频提炼为视觉运动意图,并直接作为基于扩散策略的条件输入,以生成物理合理、语义对齐的步态运动,无需显式的姿态重建或重定向。大量实验验证了RoboMirror的有效性:它支持通过第一人称视频实现远程临场控制,将第三人称控制延迟大幅降低80%,且任务成功率较基线方法提升3.7%。通过将人形机器人控制重构为以视频理解为核心,我们成功弥合了视觉理解与行动执行之间的鸿沟。

0
下载
关闭预览

相关内容

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应
专知会员服务
15+阅读 · 2025年8月5日
Python图像处理,366页pdf,Image Operators Image Processing in Python
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员