从零开始一起学习SLAM | 学习SLAM到底需要学什么？

会员服务 ·

从零开始一起学习SLAM | 学习SLAM到底需要学什么？

2018 年 9 月 9 日 计算机视觉life

点击上方蓝字关注我，置顶更快接收消息！

SLAM涉及的知识面很广，我简单总结了　“SLAM知识树”　如下所示：

（公众号菜单栏回复 “树” 可获得清晰版）

可以看到涉及的知识面还是比较广的。这里放出一张SLAM圈子里喜闻乐见的表达悲喜交加心情的漫画图，大家可以感受一下：

每个学SLAM的小伙伴可以说都是冒着“头顶凉凉”的巨大风险，勇气可嘉。下面结合SLAM知识树展开具体说说。

编程环境

首先先说电脑环境和编程。

1、电脑环境：Linux环境，推荐Ubuntu16.04。

有人问Windows行不行？这么说吧，如果你是一位SLAM领域的大牛，并且具有超强的解决bug能力，你可以用Windows，否则，非常不建议在Windows下编译，因为你早晚会被各种依赖库，各种bug搞崩溃的。而且大部分的SLAM开源代码都在Linux环境下编译，很多第三方依赖库在Linux下可以非常方便的安装。

如果之前没有接触过Ubuntu的，也不用担心。刚开始用命令行界面可能不太习惯，慢慢习惯后就会发现Linux的内在美。所以要学SLAM就先装一个Ubuntu系统吧，如果电脑本身是Windows系统，建议装双系统，不要装虚拟机。学习Linux的话，就看那本经典的书：《鸟哥的Linux私房菜》吧，书的内容比较多，建议先学习一下基本的文档操作指令。可以快速浏览一遍，不需要死记，以后用到了再去查就行。这书的作者鸟哥有个网站也可以查命令，挺方便的：

http://cn.linux.vbird.org/linux_basic/1010index.php

2、编程相关

编程语言：

主要是C++。推荐红宝书《C++ Primer》。内容非常多而全。如果是初学者没那么多时间学一遍，就重点选择前几章基础看看，动手敲一敲代码。然后了解后面几章常用的数据结构和C++的一些特性（重载、多态、继承）等。有时候也需要会一些python，网上资料很多，不多说。

集成开发环境：

CLion（用edu结尾邮箱可以申请免费使用一年）、kdevelop（免费），个人觉得前者好用一点。

编译工具：

cmake。统一使用cmake编译，好处很多，比如代码可以很方便的跨平台使用等。使用起来也很方便。有个小册子《CMake practice》照着学一下。

文档编辑：

有很多，比如gedit、Nano、vim等。

第三方函数库：

使用到的第三方库主要包括：OpenCV（计算机视觉），OpenGL（计算机图形学），Eigen（几何变换）,Sophus（李代数），Ceres（非线性优化），G2o（图优化）等。

数学

主要是大学里学的：线性代数、概率论和微积分。虽然很多人大学里学的早都还给老师了，不过也不用太担心，SLAM里也不需要非常难的数学问题。主要包括：

矩阵的性质。比如矩阵乘法、求逆、矩阵分解（SVD，QR，Cholesky）、反对称矩阵等。

李群李代数。这个可能很多人以前没接触过，也是挺重要的，不过高翔的十四讲里也讲的比较详细了，仔细推一下公式。

非线性优化问题。比如梯度下降、牛顿法、高斯-牛顿法、LM算法、bundle adjustment等。

此外，还有泰勒展开，求（偏）导，积分等。

计算机视觉相关

SLAM里涉及很多图像处理、计算机视觉知识，总结一下主要有：

相机相关：单目、双目、RGB-D等相机的物理参数意义、相机成像模型、相机的标定、去畸变等。双目的话还涉及到视差计算，RGB-D的话涉及到RGB和depth图像的对齐等。

图像处理相关。比如和特征点相关的有：特征点描述子、特征点提取、特征点匹配。图像梯度计算、边缘检测、直线检测等。

多视角几何相关。比如对极约束、本质矩阵、单应矩阵、光流估计、三角化等。

英语

学习SLAM必须具备一定的英语阅读能力。因为SLAM相关的大部分资料（论文、书籍、技术文档等）都是英文的。不过即使英文不好也不用太担心，利用好查单词软件，遇到不认识的就去查，时间长了也就都混的“脸熟”了，英语阅读速度和理解能力也会逐渐提升。

开源代码

虽然SLAM比较难，但是令人欣慰的是，SLAM领域有很多优秀的开源代码可以学习。列举几个主流的如下：

稀疏法：

ORB-SLAM2：支持单目，双目，RGB-D相机

https://github.com/raulmur/ORB_SLAM2

半稠密法：

LSD-SLAM：支持单目，双目，RGB-D相机

https://vision.in.tum.de/research/vslam/lsdslam

DSO：单目

https://vision.in.tum.de/research/vslam/dso

稠密法

Elastic Fusion：RGB-D相机

https://github.com/mp3guy/ElasticFusion

BundleFusion：RGB-D相机

https://github.com/niessner/BundleFusion

RGB-D SLAM V2：RGB-D相机

https://github.com/felixendres/rgbdslam_v2

多传感器融合：

VINS：单目 + IMU（惯性测量单元）

https://github.com/HKUST-Aerial-Robotics/VINS-Mono

OKVIS：（单目、双目、四目）+ IMU

https://wp.doc.ic.ac.uk/sleutene/2016/02/04/release-of-okvis-open-keyframe-based-visual-inertial-slam/

数据集

主要列举几个主流的数据集

１、TUM RGB-D SLAM Dataset and Benchmark

德国慕尼黑理工大学计算机视觉组制作的数据集，使用Kinect相机采集的数据集，包括IMU数据，并且用高精度运动采集系统提供了groundtruth（真值）。提供测试脚本，可以方便的实现量化评估。

https://vision.in.tum.de/data/datasets/rgbd-dataset

２、KITTI Vision Benchmark Suite

德国卡尔斯鲁厄理工学院和丰田工业大学芝加哥分校一起合作制作的用于自动驾驶的数据集。

使用一辆改装的汽车采集，该车配备了两台高分辨率彩色和灰度摄像机，还有Velodyne激光扫描仪和GPS定位系统，用来提供精确的groundtruth。主要采集区域是卡尔斯鲁厄市区、农村地区和高速公路。提供测试脚本可以方便的实现量化评估。

http://www.cvlibs.net/datasets/kitti/

３、EuRoC MAV Dataset

苏黎世联邦理工大学制作的数据集，采用装备了双目相机和IMU的四旋翼无人机采集数据，使用高精度运动采集系统提供了groundtruth。提供测试脚本，可以方便的实现量化评估。

https://projects.asl.ethz.ch/datasets/doku.php?id=kmavvisualinertialdatasets

作业

题目１

我们知道SLAM是处理序列图像的，有时候需要格式化的图像名字用作输入。前面提到的TUM的RGB-D数据集中图像是根据时间命名的，请从下面链接下载数据集fr1/desk

https://vision.in.tum.de/data/datasets/rgbd-dataset/download#

并解压。请编程实现将文件夹/rgb下以时间命名的序列图片重新命名为0000-9999的格式。

本程序学习目的：

熟悉cmake的使用、OpenCV读写操作、C++的string操作

题目２

已知相机的位姿用四元数表示为q=[0.35,0.2,0.3,0.1],顺序为x,y,z,w，请编程实现：

输出四元数对应的旋转矩阵、旋转矩阵的转置，旋转矩阵的逆矩阵，旋转矩阵乘以自身的转置，验证旋转矩阵的正交性。

本程序学习目的：

熟悉cmake的使用、学习eigen的基本操作；根据实践验证旋转矩阵的约束

下图是用于参考的代码框架：

参考输出如下，用于验证结果。

欢迎留言讨论，或者进入知识星球「从零开始学习SLAM」一起学习交流（有参考答案）~

相关内容

SLAM

关注 226

即时定位与地图构建（SLAM或Simultaneouslocalizationandmapping）是这样一种技术：使得机器人和自动驾驶汽车等设备能在未知环境（没有先验知识的前提下）建立地图,或者在已知环境（已给出该地图的先验知识）中能更新地图,并保证这些设备能在同时追踪它们的当前位置。

深度学习模型图难画论文难中？这个ML Visual利器帮你快速画出漂亮的模型图,160个模板

专知会员服务

898+阅读 · 2022年3月1日

一份简明有趣的Python学习教程，42页pdf

专知会员服务

77+阅读 · 2020年6月22日

【开放书】SLAM 中的几何与学习方法，62页pdf

专知会员服务

111+阅读 · 2020年6月5日

《C++ Primer中文版第5版》电子书与学习笔记和课后练习答案

专知会员服务

276+阅读 · 2020年2月13日

新书《给数据科学家的Python技能秘籍》，87页pdf，简单上手实用！

专知会员服务

110+阅读 · 2019年12月26日

人工智能学习笔记，247页pdf

专知会员服务

187+阅读 · 2019年12月14日

视觉惯性SLAM综述

专知会员服务

87+阅读 · 2019年12月13日

【电子书】C++ Primer Plus 第6版，附PDF

专知会员服务

88+阅读 · 2019年11月25日

【电子书】Flutter实战305页PDF免费下载

专知会员服务

23+阅读 · 2019年11月7日

2019 最新SLAM、定位、建图求职分享，看完感觉自己就是小菜鸡!

计算机视觉life

15+阅读 · 2019年8月28日

如何从零开始系统化学习视觉SLAM？

计算机视觉life

21+阅读 · 2019年4月13日

研究SLAM，对编程的要求有多高？

计算机视觉life

24+阅读 · 2019年2月18日

从零开始一起学习SLAM | 点云到网格的进化

计算机视觉life

13+阅读 · 2019年1月9日

从零开始一起学习SLAM | 给点云加个滤网

计算机视觉life

6+阅读 · 2018年12月18日

从零开始一起学习SLAM | 你好，点云

计算机视觉life

9+阅读 · 2018年11月26日

从零开始一起学习SLAM | 神奇的单应矩阵

计算机视觉life

9+阅读 · 2018年11月11日

从零开始一起学习SLAM | SLAM有什么用？

计算机视觉life

18+阅读 · 2018年9月17日

【泡泡机器人】一文带你入门语义SLAM

泡泡机器人SLAM

30+阅读 · 2017年11月29日

牛逼哄哄的SLAM技术即将颠覆哪些领域

算法与数学之美

5+阅读 · 2017年11月15日

Real-time Scalable Dense Surfel Mapping

Arxiv

5+阅读 · 2019年9月10日

Monocular Plan View Networks for Autonomous Driving

Arxiv

6+阅读 · 2019年5月16日

Star-Transformer

Arxiv

5+阅读 · 2019年2月28日

MID-Fusion: Octree-based Object-Level Multi-Instance Dynamic SLAM

Arxiv

8+阅读 · 2018年12月20日

Monocular Object and Plane SLAM in Structured Environments

Arxiv

12+阅读 · 2018年9月10日

Simultaneous Localization and Mapping (SLAM) using RTAB-MAP

Arxiv

7+阅读 · 2018年9月9日

Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments

Arxiv

5+阅读 · 2018年4月5日

Saliency-Enhanced Robust Visual Tracking

Arxiv

6+阅读 · 2018年2月8日

Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments

Arxiv

3+阅读 · 2017年11月24日

A review on cloud robotics based frameworks to solve simultaneous localization and mapping (slam) problem

Arxiv

4+阅读 · 2017年1月29日

VIP会员