在机器人操作中,任务目标可以通过多种模态传达,例如自然语言、目标图像或目标视频。然而,自然语言往往存在歧义,而图像或视频则可能提供过于细节化的指令。为应对这些挑战,我们提出了 CrayonRobo ——一种以对象为中心、提示驱动的视觉-语言-动作模型,能够以简洁的方式明确表达低层级动作与高层级任务规划。 具体而言,对于任务序列中的每一个关键帧,我们的方法支持在 RGB 图像上手动或自动生成简单而富有表现力的二维视觉提示。这些提示代表了具体的任务目标,例如末端执行器的姿态以及接触后的期望移动方向。 我们还设计了一种训练策略,使模型能够理解这些视觉-语言提示,并在 SE(3) 空间中预测相应的接触姿态与移动方向。通过顺序执行所有关键帧步骤,模型能够完成长时间跨度的任务序列。该方法不仅使模型能够更清晰地理解任务目标,还通过提供可解释的提示显著提升了其在未知任务场景中的鲁棒性。 我们在模拟环境与现实机器人平台中对该方法进行了评估,结果表明其具备强大的操控能力与良好的泛化性能。

成为VIP会员查看完整内容
2

相关内容

【AAAI2024】基于对比上下文学习的自定义语言模型响应
专知会员服务
26+阅读 · 2024年2月1日
【NeurIPS2023】PAXION:在视频-语言基础模型中修补动作知识
【ICML2023】基于自然语言指令的受控文本生成
专知会员服务
29+阅读 · 2023年4月28日
【CVPR2023】基于文本驱动软掩码的多模态表示学习
专知会员服务
21+阅读 · 2023年4月10日
【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习
专知会员服务
50+阅读 · 2021年12月20日
[ICCV 2021] 联合视觉语义推理:文本识别的多级解码器
专知会员服务
19+阅读 · 2021年11月28日
专知会员服务
19+阅读 · 2021年9月23日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
如何使用自然语言工具包(NLTK)在Python3中执行情感分析
Python程序员
21+阅读 · 2019年10月28日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
169+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
455+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【AAAI2024】基于对比上下文学习的自定义语言模型响应
专知会员服务
26+阅读 · 2024年2月1日
【NeurIPS2023】PAXION:在视频-语言基础模型中修补动作知识
【ICML2023】基于自然语言指令的受控文本生成
专知会员服务
29+阅读 · 2023年4月28日
【CVPR2023】基于文本驱动软掩码的多模态表示学习
专知会员服务
21+阅读 · 2023年4月10日
【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习
专知会员服务
50+阅读 · 2021年12月20日
[ICCV 2021] 联合视觉语义推理:文本识别的多级解码器
专知会员服务
19+阅读 · 2021年11月28日
专知会员服务
19+阅读 · 2021年9月23日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员