在机器人学中,开发能够在非结构化现实环境中根据视觉观察执行各种操纵任务的智能体是一个长期存在的问题。为了实现这一目标,机器人需要对场景的3D结构和语义有全面的理解。在本文中,我们提出了GNFactor,一种基于可泛化的神经特征场的多任务机器人操纵视觉行为克隆智能体。GNFactor联合优化了可泛化的神经场(GNF)作为重建模块和感知器Transformer作为决策模块,利用共享的深度3D体素表示。为了在3D中融入语义,重建模块利用视觉语言基础模型(如稳定扩散)将丰富的语义信息提取到深度3D体素中。我们在3个真实的机器人任务上评估了GNFactor,并在有限的演示次数下对10个RLBench任务进行了详细的消融。我们观察到GNFactor在已见和未见任务中比当前最先进的方法有实质性的改进,展示了GNFactor强大的泛化能力。

成为VIP会员查看完整内容
20

相关内容

【干货书】机器学习—工程师和科学家的第一课,348页pdf
[ICCV 2021] 联合视觉语义推理:文本识别的多级解码器
专知会员服务
19+阅读 · 2021年11月28日
专知会员服务
15+阅读 · 2021年10月16日
【KDD2020】图神经网络:基础与应用,322页ppt
专知会员服务
136+阅读 · 2020年8月30日
图神经网络表达能力的研究综述,41页pdf
专知会员服务
170+阅读 · 2020年3月10日
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
20+阅读 · 2021年10月25日
【KDD2020】图神经网络:基础与应用,322页ppt
多模态深度学习综述,18页pdf
专知
48+阅读 · 2020年3月29日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
163+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
425+阅读 · 2023年3月31日
Arxiv
69+阅读 · 2023年3月26日
VIP会员
相关VIP内容
【干货书】机器学习—工程师和科学家的第一课,348页pdf
[ICCV 2021] 联合视觉语义推理:文本识别的多级解码器
专知会员服务
19+阅读 · 2021年11月28日
专知会员服务
15+阅读 · 2021年10月16日
【KDD2020】图神经网络:基础与应用,322页ppt
专知会员服务
136+阅读 · 2020年8月30日
图神经网络表达能力的研究综述,41页pdf
专知会员服务
170+阅读 · 2020年3月10日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员