泡泡图灵智库,带你精读机器人顶级会议文章
标题:Monocular Object and Plane SLAM in Structured Environments
作者:Shichao Yang, Sebastian Scherer
来源:ArXiv.cs.CV 2018
编译:刘小亮
审核:黄文超
欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权
摘要
大家好,今天为大家带来的文章是——在结构化环境里的单目对象和平面SLAM。该文章发表于 ArXiv.cs.CV 2018。
本文提出一种除点特征外,还加入了高层的对象特征和平面地标特征的同步定位和建图方法(SLAM)。与只有点特征的SLAM比本文方法建立的地图更稠密,更紧凑,且更有意义。我们首先提出一种高阶的图形模型,用于从单张图像中联合推断出3D对象和布局平面,且考虑了遮挡和语义约束。所提取的立方体对象和布局平面在统一的SLAM框架中进一步优化。相比较与点来说,对象和平面可以提供更多的语义约束例如曼哈顿和对象支持关系。实验在多个公共数据集上面进行,包括ICL,NUIM和TUM,结果呈见出本文算法可以提升当前先进SLAM的相机定位精度,同样可以生成具有多结构环境的绸密地图。
图1 使用点,对象(绿色立方体)和平面(红色长方体)单目的SLAM稠密地图示例。上方是ICL卧室数据集,下方是收集的长走廊数据集。
主要贡献
1、提出一种高阶图形模型,有效的对3D对象和布局平面的联合结构推理进行有效推理。
2、首次提出一种包含点,对象和平面的单目SLAM方法,在定位和建图方面都有效的提升了当前先进的SLAM算法。
算法流程
一、单帧图理解
本文将环境表示为一组布局平面,例如墙,地板和长方体对象。
目标是从2D图像同时推断出它们的位置;
首先生成一些对象和平面候选提议(假设);
然后通过条件随机场(CRF)优化选择满足遮挡约束的最佳子集。
A. 候选提议生成
1) 布局平面候选提议:
本文将实际检测到的地面与墙边缘,投影到3D空间以生成平面候选提议,其可以直接用作后面的SLAM地标,因为边缘观察在帧之间是一致的。
首先检测所有图像的边缘,然后选择接近地面墙分割[2]边界的一些边缘。 对于房间环境,布局平面预测得分[17]另外用于选择可能的边缘。 如果边缘部分位于对象区域内,进一步将其扩展为与其他边缘交叉,如图2(a)所示,因为它可能被前景对象遮挡。
2) 对象立体框候选提议:
本文遵循CubeSLAM(作者另外一篇文章) [22]生成基于2D边界框检测的立方体候选提议,然后根据图像特征对候选提议进行评分。 对于每个对象实例,本文为后面的CRF优化选择最佳的15个立方体候选提议。 更多的立方体候选提议可以提高最终性能,但也会增加计算量。图2(b)中示出两个对象实例的示例。
B. CRF模型定义
鉴于所有候选提议,希望从中选择最佳子集。 本文首先为每个平面候选和长方体候选提议定义一个二进制随机变量xi∈{0,1},指示它是否会被选中。 这种多标签优化问题也称为CRF。 本文通过最小化下列的差分代价函数/潜能函数,来优化标签:
二、SLAM优化
选定的对象和平面提议被视为SLAM地标,并通过多视图BA进一步优化。 与普通点特征相似,本文在它们之间定义新的参数化和不同的测量功能。
其中重要的一个是跨多个视图的不同地标的数据关联。 对于点关联,本文使用ORB SLAM中的点特征匹配[4]。 对象关联遵循CubeSLAM的工作[22]。 每个对象包含一组属于它的特征点,然后我们可以找到具有超过阈值的最多共享地图点数的对象进行匹配(本文的实现中阈值为10)。
主要结果
1、单帧图像结果
图3 单图原始候选提议生成和CRF优化插图。 (a)原始平面和对象候选提议。 (为简洁起见,只绘制一个长方体)(b)原始候选提议的顶视图。 红色矩形是地面真实对象,蓝色是估计的。 青色线是墙面边缘。 (c)CRF选定候选提议的顶视图。 优化后,对象姿势更准确。 平面和物体遮挡也被最小化。
图4 更多的CRF优化示例结果
表1 在SUNRGBD数据集上面I o U优化前后对比
2、SLAM结果
表2 各种数据集上与ORBSLAM的对比
表3 TUM单目数据集上的位置对齐误差的对比
图5 关于对象和平面更多稠密建图结果,(上图)ICL-NUIM办公室2,(中图)TUM-单目36,(下图)我们收集的长走廊。
[2] Vijay Badrinarayanan, Alex Kendall, and Roberto Cipolla. Segnet: A deep convolutional encoder-decoder architecture for image segmenta- tion. IEEE transactions on pattern analysis and machine intelligence, 39(12):2481–2495, 2017.
[17] Yuzhuo Ren, Shangwen Li, Chen Chen, and C-C Jay Kuo. A coarse- to-fine indoor layout estimation (cfile) method. In Asian Conference on Computer Vision, pages 36–51. Springer, 2016.
[22] Shichao Yang and Sebastian Scherer. CubeSLAM: Monocular 3d object detection and slam without prior models. arXiv preprint arXiv:1806.00557, 2018.
Abstract
We present a monocular Simultaneous Localization and Mapping (SLAM) using high level object and plane landmarks, in addition to points. The resulting map is denser, more compact and meaningful compared to point only SLAM. We first propose a high order graphical model to jointly infer the 3D object and layout planes from single image considering occlusions and semantic constraints. The extracted cuboid object and layout planes are further optimized in a unified SLAM framework. Objects and planes can provide more semantic constraints such as Manhattan and object supporting relationships compared to points. Experiments on various public and collected datasets including ICL NUIM and TUM mono show that our algorithm can improve camera localization accuracy compared to state-of-the-art SLAM and also generate dense maps in many structured environments.
如果你对本文感兴趣,想要下载完整文章进行阅读,可以关注【泡泡机器人SLAM】公众号。
点击阅读原文,即可获取本文下载链接。
欢迎来到泡泡论坛,这里有大牛为你解答关于SLAM的任何疑惑。
有想问的问题,或者想刷帖回答问题,泡泡论坛欢迎你!
泡泡网站:www.paopaorobot.org
泡泡论坛:http://paopaorobot.org/bbs/
泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成,希望大家珍惜我们的劳动成果,转载请务必注明出自【泡泡机器人SLAM】微信公众号,否则侵权必究!同时,我们也欢迎各位转载到自己的朋友圈,让更多的人能进入到SLAM这个领域中,让我们共同为推进中国的SLAM事业而努力!
商业合作及转载请联系liufuqiang_robot@hotmail.com