Language-conditioned manipulation facilitates human-robot interaction via behavioral cloning (BC), which learns control policies from human demonstrations and serves as a cornerstone of embodied AI. Overcoming compounding errors in sequential action decisions remains a central challenge to improving BC performance. Existing approaches mitigate compounding errors through data augmentation, expressive representation, or temporal abstraction. However, they suffer from physical discontinuities and semantic-physical misalignment, leading to inaccurate action cloning and intermittent execution. In this paper, we present Continuous vision-language-action Co-Learning with Semantic-Physical Alignment (CCoL), a novel BC framework that ensures temporally consistent execution and fine-grained semantic grounding. It generates robust and smooth action execution trajectories through continuous co-learning across vision, language, and proprioceptive inputs (e.g., robot internal states). Meanwhile, we anchor language semantics to visuomotor representations by a bidirectional cross-attention to learn contextual information for action generation, successfully overcoming the problem of semantic-physical misalignment. Extensive experiments show that CCoL achieves an average 8.0% relative improvement across three simulation suites, with up to 19.2% relative gain in human-demonstrated bimanual insertion tasks. Real-world tests on a 7-DoF robot further confirm CCoL's generalization under unseen and noisy object states.


翻译:语言条件化操作通过行为克隆(BC)促进人机交互,该方法从人类演示中学习控制策略,并成为具身人工智能的基石。克服序列动作决策中的复合误差是提升BC性能的核心挑战。现有方法通过数据增强、表达性表征或时间抽象来缓解复合误差,但它们存在物理不连续性和语义-物理错位问题,导致动作克隆不准确和执行间歇性。本文提出一种具有语义-物理对齐的连续视觉-语言-动作协同学习(CCoL)框架,这是一种新型BC框架,确保时间一致性执行和细粒度语义基础。该框架通过对视觉、语言和本体感知输入(如机器人内部状态)的连续协同学习,生成鲁棒且平滑的动作执行轨迹。同时,我们通过双向交叉注意力将语言语义锚定到视觉运动表征中,以学习动作生成的上下文信息,成功克服了语义-物理错位问题。大量实验表明,CCoL在三个仿真套件中平均实现了8.0%的相对性能提升,在人类演示的双臂插入任务中相对增益最高达19.2%。在7自由度机器人上的真实世界测试进一步验证了CCoL在未见及噪声物体状态下的泛化能力。

0
下载
关闭预览

相关内容

国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员