For robots to understand human instructions and perform meaningful tasks in the near future, it is important to develop learned models that comprehend referential language to identify common objects in real-world 3D scenes. In this paper, we introduce a spatial-language model for a 3D visual grounding problem. Specifically, given a reconstructed 3D scene in the form of point clouds with 3D bounding boxes of potential object candidates, and a language utterance referring to a target object in the scene, our model successfully identifies the target object from a set of potential candidates. Specifically, LanguageRefer uses a transformer-based architecture that combines spatial embedding from bounding boxes with fine-tuned language embeddings from DistilBert to predict the target object. We show that it performs competitively on visio-linguistic datasets proposed by ReferIt3D. Further, we analyze its spatial reasoning task performance decoupled from perception noise, the accuracy of view-dependent utterances, and viewpoint annotations for potential robotics applications.


翻译:对于机器人来说,在不久的将来理解人的指示并完成有意义的任务,重要的是要开发理解优选语言以识别现实世界 3D 场景中常见物体的学习模型。 在本文中,我们引入了3D视觉定位问题的空间语言模型。 具体地说,鉴于三维场景以点云的形式与三维潜在对象候选方的立体捆绑盒相重建,以及提及场景中目标对象的语言表述,我们的模型成功地从一组潜在对象中确定了目标对象。 具体地说, 语言Refer 使用基于变压器的架构,将捆绑框中的空间嵌入与DistilBert 的精细调整语言嵌入结合起来,以预测目标对象。 我们显示,它具有竞争力地运行了三维维的数据集。 此外,我们分析了其空间推理工作性与感知噪音、依赖视觉的言词的准确性以及潜在机器人应用的视角说明脱钩。

0
下载
关闭预览

相关内容

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
计算机 | 入门级EI会议ICVRIS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年6月24日
CVPR 2019 | 重磅!34篇 CVPR2019 论文实现代码
AI研习社
11+阅读 · 2019年6月21日
学会期刊丨《中国人工智能学会通讯》2019年 第9卷 第04期
中国人工智能学会
6+阅读 · 2019年4月30日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
IEEE2018|An Accurate and Real-time 3D Tracking System for Robots
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Arxiv
0+阅读 · 2022年1月6日
Arxiv
0+阅读 · 2022年1月6日
Joint Monocular 3D Vehicle Detection and Tracking
Arxiv
8+阅读 · 2018年12月2日
Arxiv
4+阅读 · 2018年5月14日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
相关VIP内容
相关资讯
计算机 | 入门级EI会议ICVRIS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年6月24日
CVPR 2019 | 重磅!34篇 CVPR2019 论文实现代码
AI研习社
11+阅读 · 2019年6月21日
学会期刊丨《中国人工智能学会通讯》2019年 第9卷 第04期
中国人工智能学会
6+阅读 · 2019年4月30日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
IEEE2018|An Accurate and Real-time 3D Tracking System for Robots
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Top
微信扫码咨询专知VIP会员