【泡泡机器人】也来谈语义SLAM/语义地图

会员服务 ·

【泡泡机器人】也来谈语义SLAM/语义地图

2019 年 3 月 12 日 泡泡机器人SLAM

点击查看源网页

『本文来自高翔博士在知乎的回答总结整理』

SLAM发展到今天，好些人认为这已经是个Solved Problem了。然而实际去考察，你会发现这个同时『定位』与『建图』，在『定位』这端做了很多工作，但『建图』这端是明显缺乏的。按照理想中的情况，一个SLAM程序的流程应该是这样：

对陌生环境进行一次扫描，建立地图；

保存地图；

以后运行时，打开这张地图进行定位。

这基本上是SLAM的最终目标了。但是当你打开一个SLAM程序，你会发现我们只能做完第1步，往往是建完地图之后，程序退出，所有你建起来的特征点也好，稠密点云也好，surfel也好，tsdf也好，好看是好看，基本没法存下来当作地图来继续使用（顶多做个3D模型打印一下）。所以如果要问『SLAM现在做到什么程度』，我觉得大致上可以这样回答：

关于第1步，现在我们能做到比较好的实时追踪和建图。大部分研究集中在Tracking上面，不过这种方式在无闭环时必定有累计误差，我个人经验是在0.5%-1%这个数量级，也许个别方案在个别数据上看起来好一些，不过视觉肯定比激光要差一些，比仔细标定的轮速计也差一些，也比较容易受干扰，但好在是一个独立的系统，和别的能够互相补充。有回环可以消累积误差，前提是得回来，自动驾驶很多场景是车一直往前开，基本不回去。

关于第2步和第3步，有一些可能的解决方案，但是都不完善。相比来说，激光SLAM在地图这边相对统一，通常都是用2D网格和3D点云来做，与激光数据可以直接比较。视觉地图就没那么直接。很多研究并不奔着『地图复用』的目的去，通常是做完第1步之后就完全不管了，导致我们现在没有特别好的视觉地图可以用。

所以现阶段我们还能难说『视觉SLAM已经解决』这样的话，除非能够拿出一张可以随时定位的视觉地图。这部分的缺失，我认为是语义SLAM的一个很重要的动机。我们不妨想想，现在有哪些可能用来作为视觉地图的东西：

高精地图，点云加人工标。这个一般学校生产不出来，只有公司里有；
Grid map/Occupancy map，适合激光。有RGB-D的时候可以用，纯视觉困难；
特征点地图，现在SLAM里主要形式，类似ORB-SLAM2的地图，容易受光照和场景影响。
点云/带标记的点云，很难用，可能有部分带半稠密重建的方法可以和点云地图做ICP。
物体地图，以物体实例作为路标的地图。
拓扑地图，以路径点作为节点的拓扑图，可以端到端地训练图像到路径点的映射。

所以现在看来室内比较有希望的是后面几种，自动驾驶主要是高精地图。

什么是语义SLAM？

语义SLAM的概念很模糊。你会找到许多带着『Semantic』字眼，实际上完全不在说同一件事情的论文。比如从图像到Pose端到端的VO、从分割结果建标记点云、场景识别、CNN提特征、CNN做回环、带语义标记误差的BA，等等，都可以叫语义SLAM。

但是从实用层面考虑，我觉得最关键的一点是：

用神经网络帮助SLAM提路标

提路标这件事实际上是传统SLAM非常不擅长的事情。我们用角点和边缘，是因为现在只有角点和边缘可用。如果现在有个网络，对任意一张图片都能正确找到图片里的路标，一一对应，非常鲁棒，那么后续的SLAM就是件很简单的事情。比如现在人脸关键点能够做的非常准、非常鲁棒，对各种光照下的人脸我们都能找到那几十个点。

如果我们能在道路场景或室内场景也能做到这种程度，那SLAM就完全不一样。然而现在似乎并没有这种做法，至少还没流行开来。

那么就只能退而求其次，用现有的检测和分割来帮忙提路标。如果已经知道图像中某个物体属于一个既定的类别，然后再提角点，就会比针对全图提角点要好很多。当然，如果能直接提到点，那肯定是提点更好用，检测和分割都需要一些额外的后续处理。

举一些上面谈到的地图例子。

带标记的点云是研究最多的，从很早之前就有。它的思路是把分割的结果往RGBD点云里投，然后做一个融合，RGBD+室内的场景多一些，室外也有一部分。18年比如ETH有把Mask RCNN结果投到3D中进行Instance推断然后建图的，可以达到非常细致的结果。

再早一点比如牛津的Semantic Fusion，算是比较经典的工作：

自动驾驶里也有这种类型的高精地图，举例比如说Civil maps的演示视频，点云中有标记车道线和地面箭头。后面也有带物体instance的地图：

单纯的给点云上标记的事情其实并没有太多用途。给激光用，激光ICP通常不考虑标记信息；给视觉用，视觉也没法直接和点云去匹配。所以这种五颜六色的点云来说，物体级别的地图会更加有用：

这种图的好处在于物体实际充当了SLAM中的路标的功能，它们的提取和匹配会比传统的角点更加鲁棒。你可以期待不同天气下都能提到同一个红绿灯，但你不能期待对于各种天气下同样的建筑物能提到同样的角点。

细分下去，这种基于物体的地图也可以有不同做法。比如室内环境，你可以准备一个3D模型库，只检测模型库内的物体。这种做法在早期的SLAM++和现在的一些论文中都能看到，比如这个就是存了椅子模型的：

观看本视频(video4)请到文末获取链接

这个模型更多一些，除了椅子还有很多小物体，能用地图信息修正检测结果，并且他们用的是检测而不是分割：

观看本视频(video5)请到文末获取链接

所以『把物体建出来当地图路标』其实是一个不错的思路。剩下的就是看物体有多少类，能不能支持到大多数常见的物体。就自动驾驶来说，有了车道线，你至少就能知道自己在第几根车道线之间。有了车道线地图，就能知道自己在地图上哪两根车道线之间。类别再丰富一些，能用来定位的东西就更多，覆盖范围也就更宽。

这个算是语义SLAM和传统SLAM中最不同的地方了。

以上视频来自YouTube，论文题目在视频开头处，读者可自行搜索

video4:

https://v.qq.com/x/page/u0848a98m7f.html?pcsharecode=CdrLQDmn&sf=uri

video5:

https://v.qq.com/x/page/p0848kefne5.html?pcsharecode=GsG7cVSL&sf=uri

登录查看更多

相关内容

SLAM

关注 226

即时定位与地图构建（SLAM或Simultaneouslocalizationandmapping）是这样一种技术：使得机器人和自动驾驶汽车等设备能在未知环境（没有先验知识的前提下）建立地图,或者在已知环境（已给出该地图的先验知识）中能更新地图,并保证这些设备能在同时追踪它们的当前位置。

【开放书】SLAM 中的几何与学习方法，62页pdf

专知会员服务

111+阅读 · 2020年6月5日

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

专知会员服务

52+阅读 · 2020年5月26日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

121+阅读 · 2020年5月18日

一份循环神经网络RNNs简明教程，37页ppt

专知会员服务

173+阅读 · 2020年5月6日

【CVPR2020-Oral】自监督单目场景流量估计，Self-Supervised Monocular SFE

专知会员服务

23+阅读 · 2020年4月9日

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

专知会员服务

61+阅读 · 2020年4月7日

[CVPR 2020 Oral-牛津] RandLA-Net:大场景三维点云语义分割新框架

专知会员服务

26+阅读 · 2020年3月15日

【2019机器学习大总结】机器学习和机器人:我的2019年领域状态

专知会员服务

54+阅读 · 2019年12月31日

视觉惯性SLAM综述

专知会员服务

87+阅读 · 2019年12月13日

专知会员服务

69+阅读 · 2019年11月23日

【泡泡一分钟】变化环境下激光地图辅助视觉惯性定位

泡泡机器人SLAM

15+阅读 · 2019年5月22日

SLAM的动态地图和语义问题

计算机视觉life

24+阅读 · 2019年4月27日

语义信息与SLAM有哪些结合点？

计算机视觉life

5+阅读 · 2019年4月23日

高翔：谈谈语义SLAM/地图

计算机视觉life

37+阅读 · 2019年3月26日

【泡泡一分钟】DS-SLAM: 动态环境下的语义视觉SLAM

泡泡机器人SLAM

23+阅读 · 2019年1月18日

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

泡泡机器人SLAM

27+阅读 · 2018年12月14日

【泡泡机器人原创专栏】语义SLAM论文阅读精华提炼

泡泡机器人SLAM

6+阅读 · 2018年10月8日

【泡泡机器人】一文带你入门语义SLAM

泡泡机器人SLAM

30+阅读 · 2017年11月29日

推荐｜视觉SLAM漫淡：机器人即时定位与地图构建！

全球人工智能

8+阅读 · 2017年9月30日

专栏｜语义SLAM的重要性，你造吗？

智东西

7+阅读 · 2017年9月5日

Real-time Scalable Dense Surfel Mapping

Arxiv

5+阅读 · 2019年9月10日

Sparse2Dense: From direct sparse odometry to dense 3D reconstruction

Arxiv

9+阅读 · 2019年3月21日

3D Hand Shape and Pose Estimation from a Single RGB Image

Arxiv

17+阅读 · 2019年3月3日

SuperDepth: Self-Supervised, Super-Resolved Monocular Depth Estimation

Arxiv

5+阅读 · 2018年10月3日

Monocular Object and Plane SLAM in Structured Environments

Arxiv

12+阅读 · 2018年9月10日

Simultaneous Localization and Mapping (SLAM) using RTAB-MAP

Arxiv

7+阅读 · 2018年9月9日

Structure Aware SLAM using Quadrics and Planes

Arxiv

4+阅读 · 2018年8月13日

A Gauss-Newton Approach to Real-Time Monocular Multiple Object Tracking

Arxiv

4+阅读 · 2018年7月5日

Weakly Supervised Instance Segmentation using Class Peak Response

Arxiv

3+阅读 · 2018年4月3日

CNN-RNN: A Unified Framework for Multi-label Image Classification

Arxiv

7+阅读 · 2016年4月15日

VIP会员