机器人操作需要精确的空间理解能力,以实现与真实场景中物体的交互。基于点云的方法受限于稀疏采样,易导致细粒度语义特征丢失;而基于图像的方法通常将RGB和深度信息输入至经3D辅助任务预训练的二维骨干网络,但其纠缠的语义与几何表征对现实场景中固有的深度噪声十分敏感,会严重干扰语义理解。更重要的是,这些方法往往关注高层几何特征,却忽视了实现精准交互所必需的低层空间线索。本文提出解耦式机器人操作框架SpatialActor,通过显式解耦语义与几何表征来解决上述问题。我们设计的语义引导几何模块能够自适应地融合来自噪声深度数据和语义引导专家先验的两种互补几何信息;同时,空间变换器模块充分利用低层空间线索实现精确的2D-3D映射,并促进空间特征间的交互。我们在超过50种模拟与真实场景任务中对SpatialActor进行了全面评估:该框架在RLBench基准测试中以87.4%的准确率刷新了性能记录,在不同噪声环境下仍保持13.9%至19.4%的性能提升,展现出卓越的鲁棒性。此外,该框架显著提升了新任务的少样本泛化能力,并在各类空间扰动下始终保持稳定的操作性能。

项目页面:https://shihao1895.github.io/SpatialActor

成为VIP会员查看完整内容
0

相关内容

【NeurIPS 2022】扩散模型的深度平衡方法
专知会员服务
40+阅读 · 2022年11月5日
【伯克利博士论文】机器人机械搜索的操作与感知策略
专知会员服务
16+阅读 · 2022年6月4日
【ICLR2022】Vision Transformer 模型工作机制的最新理论
专知会员服务
43+阅读 · 2022年2月19日
【AAAI 2022】跨模态目标跟踪: 模态感知表示和统一基准
专知会员服务
44+阅读 · 2022年1月6日
专知会员服务
14+阅读 · 2021年10月9日
[NeurIPS 2020] 球形嵌入的深度度量学习
专知会员服务
17+阅读 · 2020年11月8日
数据受限条件下的多模态处理技术综述
专知
21+阅读 · 2022年7月16日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Arxiv
172+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
489+阅读 · 2023年3月31日
Arxiv
81+阅读 · 2023年3月26日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【NeurIPS 2022】扩散模型的深度平衡方法
专知会员服务
40+阅读 · 2022年11月5日
【伯克利博士论文】机器人机械搜索的操作与感知策略
专知会员服务
16+阅读 · 2022年6月4日
【ICLR2022】Vision Transformer 模型工作机制的最新理论
专知会员服务
43+阅读 · 2022年2月19日
【AAAI 2022】跨模态目标跟踪: 模态感知表示和统一基准
专知会员服务
44+阅读 · 2022年1月6日
专知会员服务
14+阅读 · 2021年10月9日
[NeurIPS 2020] 球形嵌入的深度度量学习
专知会员服务
17+阅读 · 2020年11月8日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
微信扫码咨询专知VIP会员