Grasping is one of the most fundamental challenging capabilities in robotic manipulation, especially in unstructured, cluttered, and semantically diverse environments. Recent researches have increasingly explored language-guided manipulation, where robots not only perceive the scene but also interpret task-relevant natural language instructions. However, existing language-conditioned grasping methods typically rely on shallow fusion strategies, leading to limited semantic grounding and weak alignment between linguistic intent and visual grasp reasoning.In this work, we propose Language-Guided Grasp Detection (LGGD) with a coarse-to-fine learning paradigm for robotic manipulation. LGGD leverages CLIP-based visual and textual embeddings within a hierarchical cross-modal fusion pipeline, progressively injecting linguistic cues into the visual feature reconstruction process. This design enables fine-grained visual-semantic alignment and improves the feasibility of the predicted grasps with respect to task instructions. In addition, we introduce a language-conditioned dynamic convolution head (LDCH) that mixes multiple convolution experts based on sentence-level features, enabling instruction-adaptive coarse mask and grasp predictions. A final refinement module further enhances grasp consistency and robustness in complex scenes.Experiments on the OCID-VLG and Grasp-Anything++ datasets show that LGGD surpasses existing language-guided grasping methods, exhibiting strong generalization to unseen objects and diverse language queries. Moreover, deployment on a real robotic platform demonstrates the practical effectiveness of our approach in executing accurate, instruction-conditioned grasp actions. The code will be released publicly upon acceptance.


翻译:抓取是机器人操作中最具挑战性的基本能力之一,尤其是在非结构化、杂乱且语义多样的环境中。近年来,研究日益关注语言引导的操作,其中机器人不仅感知场景,还理解与任务相关的自然语言指令。然而,现有的语言条件抓取方法通常依赖于浅层融合策略,导致语义基础有限,语言意图与视觉抓取推理之间的对齐较弱。本文提出了一种用于机器人操作的语言引导抓取检测方法,采用由粗到精的学习范式。该方法在分层跨模态融合流程中利用基于CLIP的视觉与文本嵌入,逐步将语言线索注入视觉特征重建过程。这一设计实现了细粒度的视觉-语义对齐,并提升了预测抓取相对于任务指令的可行性。此外,我们引入了一种语言条件动态卷积头,它基于句子级特征混合多个卷积专家,从而实现指令自适应的粗掩码与抓取预测。最终的精炼模块进一步增强了复杂场景中抓取的一致性与鲁棒性。在OCID-VLG和Grasp-Anything++数据集上的实验表明,该方法超越了现有的语言引导抓取方法,对未见过的物体和多样化的语言查询展现出强大的泛化能力。此外,在真实机器人平台上的部署验证了该方法在执行精确、指令条件抓取动作方面的实际有效性。代码将在论文被接受后公开发布。

0
下载
关闭预览

相关内容

【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化
专知会员服务
22+阅读 · 2024年10月23日
ChatAug: 利用ChatGPT进行文本数据增强
专知会员服务
81+阅读 · 2023年3月4日
如何使用自然语言工具包(NLTK)在Python3中执行情感分析
Python程序员
21+阅读 · 2019年10月28日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员