Language-conditioned manipulation facilitates human-robot interaction via behavioral cloning (BC), which learns control policies from human demonstrations and serves as a cornerstone of embodied AI. Overcoming compounding errors in sequential action decisions remains a central challenge to improving BC performance. Existing approaches mitigate compounding errors through data augmentation, expressive representation, or temporal abstraction. However, they suffer from physical discontinuities and semantic-physical misalignment, leading to inaccurate action cloning and intermittent execution. In this paper, we present Continuous vision-language-action Co-Learning with Semantic-Physical Alignment (CCoL), a novel BC framework that ensures temporally consistent execution and fine-grained semantic grounding. It generates robust and smooth action execution trajectories through continuous co-learning across vision, language, and proprioceptive inputs (e.g., robot internal states). Meanwhile, we anchor language semantics to visuomotor representations by a bidirectional cross-attention to learn contextual information for action generation, successfully overcoming the problem of semantic-physical misalignment. Extensive experiments show that CCoL achieves an average 8.0% relative improvement across three simulation suites, with up to 19.2% relative gain in human-demonstrated bimanual insertion tasks. Real-world tests on a 7-DoF robot further confirm CCoL's generalization under unseen and noisy object states.


翻译:语言条件化操作通过行为克隆(BC)促进人机交互,该方法从人类示范中学习控制策略,并成为具身人工智能的基石。克服序列动作决策中的复合误差仍是提升BC性能的核心挑战。现有方法通过数据增强、表达性表征或时间抽象来缓解复合误差,但存在物理不连续性和语义-物理失配问题,导致动作克隆不准确和执行间歇性。本文提出基于语义-物理对齐的连续视觉-语言-动作协同学习(CCoL),这是一种新型BC框架,能确保时间一致性执行和细粒度语义对齐。该框架通过跨视觉、语言及本体感知输入(如机器人内部状态)的连续协同学习,生成鲁棒平滑的动作执行轨迹。同时,我们通过双向交叉注意力将语言语义锚定至视觉运动表征,学习动作生成的上下文信息,成功克服语义-物理失配问题。大量实验表明,CCoL在三个仿真套件中平均实现8.0%的相对性能提升,在人类示范的双臂插入任务中最高获得19.2%的相对增益。在7自由度机器人上的真实世界测试进一步验证了CCoL在未见及含噪声物体状态下的泛化能力。

0
下载
关闭预览

相关内容

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员