Vision-Language-Action (VLA) models align vision and language with embodied control, but their object referring ability remains limited when relying solely on text prompt, especially in cluttered or out-of-distribution (OOD) scenes. In this study, we introduce the Point-VLA, a plug-and-play policy that augments language instructions with explicit visual cues (e.g., bounding boxes) to resolve referential ambiguity and enable precise object-level grounding. To efficiently scale visually grounded datasets, we further develop an automatic data annotation pipeline requiring minimal human effort. We evaluate Point-VLA on diverse real-world referring tasks and observe consistently stronger performance than text-only instruction VLAs, particularly in cluttered or unseen-object scenarios, with robust generalization. These results demonstrate that Point-VLA effectively resolves object referring ambiguity through pixel-level visual grounding, achieving more generalizable embodied control.


翻译:视觉-语言-动作(VLA)模型将视觉和语言与具身控制对齐,但在仅依赖文本提示时,其对象指代能力仍然有限,尤其是在杂乱或分布外(OOD)场景中。在本研究中,我们提出了Point-VLA,一种即插即用策略,通过显式视觉线索(例如边界框)增强语言指令,以解决指代歧义并实现精确的对象级基础。为了高效扩展视觉基础数据集,我们进一步开发了一种自动数据标注流程,仅需最少的人工投入。我们在多样化的真实世界指代任务上评估Point-VLA,观察到其性能始终优于纯文本指令VLA,尤其是在杂乱或未见对象场景中,并展现出鲁棒的泛化能力。这些结果表明,Point-VLA通过像素级视觉基础有效解决了对象指代歧义,实现了更具泛化性的具身控制。

0
下载
关闭预览

相关内容

【KDD2024】HiGPT:异构图语言模型
专知会员服务
19+阅读 · 2024年7月9日
【AAAI2024】LAMM: 多模态提示学习的标签对齐
专知会员服务
41+阅读 · 2023年12月14日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员