【新书】SLAM手册从定位与建图到空间智能，194页pdf

本章介绍了同步定位与建图（SLAM）问题，展示了构成典型SLAM系统的模块，并解释了SLAM在自主系统架构中的作用。本章还对该主题提供了简短的历史回顾，并讨论了传统SLAM概念如何随着新技术趋势和机遇的出现而不断发展。本章的最终目标是引入基本术语和动机，并描述本手册的范围和结构。

1.1 什么是SLAM？

机器人在未知环境中安全高效运行的必要前提是能够形成其周围环境的内部表示。这类表示可以用来支持避障、低层控制、规划，以及更广泛的决策过程，以完成分配给机器人的任务。执行简单任务（例如跟随车道或保持与前方物体一定距离）可能仅需要在传感器数据流中跟踪感兴趣的实体，而复杂任务（例如大规模导航或移动操作）则需要构建和维护环境的持久表示（地图）。这样的地图描述了障碍物、物体和其他感兴趣实体的存在及其相对于机器人位姿（位置和方向）的相对位置。例如，地图可以用来指导机器人到达感兴趣的地点、抓取某个物体或支持对初始未知环境的探索。图1.1展示了一些现实场景中同步定位与建图（SLAM）的实际应用。对于在初始未知环境中运行的机器人，构建环境地图的同时估计其相对于该地图的位姿的任务被称为同步定位与建图（SLAM）。如果地图已知，SLAM问题简化为定位问题，此时机器人只需估计其相对于地图的位姿。另一方面，如果机器人的位姿已知，例如通过绝对定位系统（例如差分GPS或动作捕捉）确定，则SLAM问题简化为建图问题，此时机器人只需使用传感器数据对周围环境进行建模。 SLAM在机器人研究中的核心地位源于实际应用中机器人位姿很少已知。差分GPS和动作捕捉系统成本高昂且仅限于小范围区域，因此不适用于大规模机器人部署。消费级GPS虽然更广泛可用，但其精度（通常误差在米级）和可用性（受限于户外且需要卫星直视线）使其往往不适合作为定位的唯一来源；消费级GPS通常用作SLAM的附加信息源，而非SLAM中定位功能的替代品。同样，在许多机器人应用中，机器人通常无法获得先验地图，因此需要执行SLAM而不是简单定位。实际上，在某些应用中，构建地图本身就是机器人部署的目标。例如，在支持灾害响应和搜救行动时，机器人可能被部署以绘制灾区地图以帮助第一响应者。在其他情况下，地图可能已经陈旧或缺乏足够的细节。例如，家用机器人可能获得其操作公寓的平面图，但这样的平面图可能未描述实际环境中的家具和物体，且这些元素每天可能重新布置。类似地，火星探测车可以获取低分辨率的火星表面卫星地图，但仍需要执行局部建图以指导避障和运动规划。 SLAM问题的重要性促使研究界和实践者对这一主题给予了极大的关注，这些技术在多个应用领域中（从机器人到虚拟现实和增强现实）得到了广泛应用。同时，SLAM仍然是一个令人兴奋的研究领域，拥有许多开放问题和新的机遇。

1.2 现代SLAM系统的结构

SLAM的最终目标是根据传感器数据推断地图表示和机器人位姿（即轨迹）。这些传感器数据包括内感知传感器（例如轮式里程计或惯性测量单元（IMU））和外感知传感器（例如摄像头、激光雷达（LiDAR）和雷达）。从数学上讲，这可以理解为一个逆问题：给定一组测量值，确定一个能够生成这些测量值的世界模型（地图）和机器人位姿（轨迹）。解决SLAM问题有两种主要策略：间接方法和直接方法。绝大多数SLAM方法倾向于对原始传感器数据进行预处理，以提取“中间表示”，这些表示紧凑且更易于数学描述。这些方法不使用图像中的每个像素，而是提取少量的二维特征点（或关键点），并仅对这些关键点的几何与相机位姿及场景几何的关系进行建模。相比之下，直接方法则直接从原始传感器数据中计算定位和建图，而不计算中间抽象。这种分类在视觉SLAM中尤为显著，但不限于此，如第9章和第10章将进一步探讨。间接和直接方法各有优缺点。间接方法通常更快且更节省内存。例如，它们仅处理少量关键点，而不是处理每幅图像中的每个像素。因此，实时视觉SLAM的间接方法在2000年左右已成为现实。迄今为止，间接方法仍是计算能力有限的平台上实时机器人视觉的首选。此外，一旦确定了中间表示，后续的计算通常在数学上更简单，从而使得推断问题更易于解决。例如，在视觉SLAM中，一旦在多幅图像中识别出一组对应点，定位和建图问题可归结为经典的束调整问题，而针对该问题已存在多种强大的求解器和近似方法。反之，直接方法有潜力提供更高的精度，因为它们利用了所有可用的输入信息。然而，处理所有输入信息（例如每幅图像的所有像素）的计算开销较大，且在将关注量（定位和建图）与原始输入数据（例如每个像素的亮度）建立复杂关系时，可能会在整体损失函数中引入更多的非凸性问题。然而，通过高效的近似和推断策略，第一批实时可用的直接视觉SLAM方法在2010年代问世。正如在第二部分和第三部分中所见，通过使用图形处理单元（GPU）并行化计算，可大大提高大量输入数据的处理效率。在直接和间接方法中，测量值均用于推断机器人位姿和地图表示。在估计理论中，有一套成熟的文献描述了如何根据观测值推断感兴趣的量（在SLAM中即为机器人位姿和周围地图）。本书特别关注基于概率推断的估计理论工具——在第2章和第3章中对这些工具进行了回顾并针对SLAM问题进行了定制化处理，这些工具将估计重新表述为优化问题的求解。

间接方法自然在常见的SLAM架构中形成了模块分工（图1.2）：原始传感器数据首先传递给一组算法（SLAM前端）以提取中间表示；然后将这些中间表示传递给估计器（SLAM后端），由后端估计感兴趣的量。前端通常还负责构建初始猜测：这是后端用于迭代优化的初始估计，从而减轻非凸性引发的收敛问题。以下将通过几个例子进一步澄清SLAM前端和后端之间的区别。

示例 1.1 （视觉 SLAM：从像素到地标）

视觉 SLAM 使用摄像头图像估计机器人的轨迹并生成稀疏的三维点云地图。视觉 SLAM 系统的典型前端通过提取二维关键点并在不同帧之间进行匹配，使得每组匹配（称为特征轨迹）对应于在不同相机视角下对同一三维点（称为地标）的重新观测。前端还将利用一种计算机视觉技术（称为最小解算器）计算相机位姿和三维地标位置的粗略估计。随后，由后端负责通过解决一个称为束调整的优化问题，估计（或精化）未知地标的三维位置以及观测这些地标的机器人位姿。这种模型形成了一种基于地标（或基于特征）的 SLAM 模型，如图 1.3(a) 所示。第 8 章将对视觉 SLAM 进行详细讨论。

示例 1.2 （激光雷达 SLAM：从扫描到里程计和回环检测）

激光雷达 SLAM 使用激光雷达扫描来估计机器人轨迹和地图。激光雷达 SLAM 的常见前端使用扫描匹配算法（例如迭代最近点算法，ICP）计算两次激光雷达扫描之间的相对位姿。具体来说，前端会匹配连续时间点的扫描，以估计机器人在它们之间的相对运动（即所谓的里程计），并匹配对应于同一地点的多次扫描（即所谓的回环检测）。然后，里程计和回环检测的测量结果会传递给后端，后端通过解决一个称为位姿图优化的优化问题，优化机器人的轨迹。这种模型形成了一种基于位姿图的 SLAM 模型，如图 1.3(b) 所示。第 9 章将详细讨论激光雷达 SLAM。

前端生成的中间表示

上述示例展示了 SLAM 系统前端生成并传递给后端的三种常见“中间表示”（或伪测量）（图 1.2）：地标观测、里程计和回环检测。在复杂的 SLAM 系统中，这些表示可以组合使用。例如，在某些视觉 SLAM 系统中，可以提取对应于三维地标的关键点，并进一步处理它们以计算对应于里程计和回环检测的相对位姿，最终使用基于位姿图的后端。前端和后端的划分需要在计算效率和精度之间做出权衡。提取更简单的表示可以显著加快后端求解器的速度（例如，执行位姿图优化通常比束调整快得多）；但同时，对测量值的抽象会在后端的测量建模中引入近似，从而导致一定程度的小误差（例如，束调整通常比位姿图优化更精确）。

回环检测的重要性

需要指出的是，回环检测是 SLAM 的关键方面。如果仅使用里程计进行轨迹估计，累积里程计运动估计会导致轨迹估计随着时间的推移出现漂移，从而导致严重的轨迹变形。回到已经访问过的地方对于将轨迹估计误差限制在一定范围内并生成全局一致的地图至关重要。需要注意的是，在基于地标的 SLAM 中，回环检测隐含地体现在对先前观察到的地标的新观测中。

跨学科的 SLAM 研究

我们最后观察到，SLAM 研究贯穿多个学科领域。SLAM 的前端从原始传感器数据中提取特征，涉及信号处理、几何学、二维计算机视觉和机器学习等领域。SLAM 的后端基于前端的测量进行估计，涉及估计理论、优化和应用数学等领域。这种跨学科的思想和影响使 SLAM 成为一个令人着迷且多面复杂的问题。

1.3 SLAM在自主架构中的作用

SLAM的作用是为下游任务提供支持。例如，机器人的位姿估计可以用于控制机器人沿着预定轨迹移动，而地图（结合当前机器人的位姿）可以用于运动规划（如图1.4所示）。在这里，运动规划被广义地使用：虽然SLAM通常用于构建大规模地图以支持导航任务，但它也可以支持构建局部三维地图以实现操作和抓取。尽管可能将SLAM看作一个将传感器数据作为输入并即时输出机器人位姿和地图的单一系统，但实际上，这些系统的实现以及它们在自主架构中的集成更加复杂。这是因为机器人需要闭合不同的控制和决策环路，而这些环路具有不同的延迟要求。例如，参考图1.4，机器人需要在其轨迹上闭合低级控制环路（这是图中右上角的标准反馈控制环路），这可能需要较高的频率和低延迟以保持稳定性；例如，一架高速飞行的无人机可能需要前端在几毫秒的延迟内生成里程计估计。另一方面，闭合运动规划环路（图1.4中的外环）可以容忍更高的延迟，因为全局规划通常以较低的频率运行；因此，后端可能以秒级的延迟提供全局轨迹和地图估计。基于这些原因，典型的SLAM系统实现通常涉及多个并行运行的进程，并且较慢的进程（例如后端的全局位姿和地图优化）不会影响较快的进程（例如里程计估计）。我们还注意到，SLAM系统中涉及的各个进程具有复杂的交互（如图1.4中双向边所强调的）：例如，前端将里程计数据传递给后端，而后端会周期性地对里程计轨迹应用全局修正，修正后的轨迹随后传递给运动控制器；同样，前端计算的回环检测数据被传递给后端，而后端也可以向回环检测模块提供可能或不可能的回环闭合机会的反馈。视觉SLAM问题与“从运动中重建结构”（Structure from Motion，SfM）问题密切相关。虽然对某些研究者而言，这两个术语是等价的，但另一些研究者认为视觉SLAM系统通常会集成额外的传感器信息（如IMU、轮式里程计等），并专注于在线方法（数据按顺序流入），而SfM则可以是在线或离线的，输入仅为图像。总的来说，可以区分两种互补的挑战：一是在线挑战，其中机器人移动时传感器数据按顺序流入，而SLAM后端可能以较慢的速度运行，但像机器人定位这样的关键估计必须实时确定，通常甚至需要在计算能力有限的嵌入式硬件上完成。这些实时约束对机器人在复杂环境中（尤其是像无人机这样的高速机器人）做出正确反应至关重要，并且往往决定了算法和处理步骤的选择。另一种是离线挑战，其中输入数据可能没有任何顺序（例如无序的图像数据集），计算通常不需要实时性能，且计算硬件可以（任意）强大（例如使用多个强大的GPU）。在这种情况下，地图和轨迹估计的精度比计算时间更为重要。然而，在大多数应用中，人们会面临这两种极端场景的混合，其中某些数据需要快速确定，而其他数据可以离线处理。在SLAM的实际应用中，仔细分析哪些数据需要以何种频率确定是极其重要的，并且可能需要设计一个不同时间尺度的层次结构来估计这些数据。

1.3.1 我们是否真的需要机器人中的SLAM？

从上述描述来看，SLAM是一个引人入胜但非常具有挑战性的问题，其复杂性既体现在实现上，也体现在需要在资源受限的平台上实现快速运行。因此，一个值得提出的问题是：我们是否可以开发不依赖SLAM的复杂自主机器人？我们将这个问题细化为以下三个子问题：

**问题1：我们是否需要SLAM来完成所有机器人任务？

本节开头提到，SLAM是为支持机器人任务而设计的。那么，一个自然的问题是，SLAM是否对所有机器人任务都是必要的？答案显然是否定的。对于更具反应性的任务，例如保持目标在视线内，可以通过更简单的控制策略（例如视觉伺服）解决。同样，如果机器人仅需在小范围内操作，依赖于里程计估计和局部建图可能是可以接受的。此外，如果机器人的操作环境中有用于定位的基础设施，那么我们可能不需要解决SLAM。然而，SLAM似乎是机器人在非结构化（即无基础设施）环境中进行长期操作的必要组成部分：长期操作通常需要记忆（例如，回到之前看到的物体或找到合适的无碰撞路径），而SLAM构建的地图表示可以提供这种长期记忆。

**问题2：我们是否需要全局一致的几何地图来导航？

SLAM的一个主要关注点是优化轨迹和地图表示，使其在度量上准确（或全局一致）——这正是SLAM后端的作用。有人可能会问，度量精度是否真的必要。一个替代方案是仅使用里程计以获得局部一致的轨迹和地图估计；这种方式可以避免回环检测和后端优化的需求。不幸的是，由于漂移问题，里程计不足以支持长期操作：想象一下，机器人访问了建筑物中的办公室1，然后在探索了其他区域后访问了办公室3，而办公室3就在办公室1的隔壁（见图1.5(a)）。仅使用里程计，机器人可能会误以为办公室1和办公室3相距很远（由于里程计漂移），因此无法意识到两者之间有一条短路径连接（见图1.5(b)）。一个稍微复杂一些的替代方案是构建拓扑地图。拓扑地图可以被视为一个图，其中节点是机器人访问的地点，边表示连接这些地点的可通行性（见图1.5(c)）。与本手册采用的度量SLAM视角不同，拓扑地图中的节点和边不包含度量信息（距离、方位、位置），因此不需要任何优化：只需在机器人经过两个地点时（通过里程计）或地点识别模块发现地点重叠时（回环检测）添加边即可。尽管这种方法看似合理，但主要问题在于地点识别技术并不完美，更根本地讲，不同地点可能看起来相似（即感知混淆现象）。回到前面的例子，如果办公室1和办公室3看起来非常相似，纯拓扑方法可能会错误地认为它们是同一个办公室（见图1.5(d)）。另一方面，度量SLAM方法可以利用几何信息得出办公室1和办公室3确实是两个不同房间的结论，同时为用户提供一组更强大的工具，以决定地点识别结果是否正确以及两次观测是否对应于同一地点。这些工具将在第4章中详细讨论。

**问题3：我们是否需要地图？

SLAM构建的地图可以直接被查询、检查和可视化。正如我们将在第6章中看到的，有多种表示地图的方法，包括三维点云、体素、网格、神经辐射场等。另一方面，可以采取完全不同的方式：为了让机器人执行任务，机器人可以被训练为将原始传感器数据直接转换为行动（例如，使用强化学习），从而绕过构建地图的需求。在这种方法中，神经网络通过传感器数据到行动的训练会创建一个内部表示，但这种内部表示无法直接查询、检查或可视化。关于地图是否必要，目前尚无定论，但初步证据表明，使用地图作为中间表示至少在完成许多机器人视觉任务时是有益的。此外，地图的好处在于其适用于多种任务，而完全在单一任务上下文中学习的表示可能无法支持新的、未见过的任务。最后，我们注意到在某些应用中，目标是生成一张可供检查的地图。例如，在搜救机器人应用中，提供一张地图以帮助第一响应者是非常有价值的。此外，在机器人以外的多个领域（如房地产规划与可视化、施工监控、虚拟和增强现实）中，目标是让人类检查或可视化地图。

1.4 SLAM的过去、现在和未来，以及本手册的范围

空间推理算法的设计自从机器人和计算机视觉研究的诞生以来就处于核心地位。同时，SLAM研究不断演进，并扩展到新的工具和问题领域。

1.4.1 简短的历史回顾与本手册的范围

正如本书各章讨论的那样，SLAM具有多种面向。因此，其历史也是多方面的，可以追溯到不同的科学领域。从观测和测量中创建世界地图是历史上最古老的挑战之一，这导致了大地测量学（测量地球性质的科学）和测绘学的产生。许多先驱者为这一领域做出了贡献。卡尔·弗里德里希·高斯在1821年至1825年间对汉诺威王国进行了三角测量。乔治·埃佛勒斯特爵士在1830年至1843年期间担任印度大三角测量总督，因而世界上最高的山峰以他的名字命名。1856年，卡尔·马克西米利安·冯·鲍恩芬德出版了一本关于《测绘元素》的标准著作，并于1868年创立了慕尼黑工业大学，重点推动将大地测量学确立为一门科学学科。安德烈-路易斯·柯列斯基在第一次世界大战前在克里特岛和北非进行测绘时，发展了著名的柯列斯基矩阵分解法。视觉SLAM问题与摄影测量学以及计算机视觉中的运动结构重建问题密切相关，其起源可以追溯到19世纪（详见第8章）。在机器人学中，SLAM的起源通常追溯到Smith和Chessman [239]以及Durrant-Whyte [79]的开创性工作，以及Crowley [60]和Chatila与Laumond [48]的平行研究。SLAM这一缩写于1995年在综述论文[80]中首次提出。这些早期工作提出了两个基本见解。第一个见解是，在未知环境中，为了避免漂移，必须同时估计机器人的位姿和固定外部实体（例如地标）的位置。第二个见解是，可以利用估计理论中的现有工具，特别是著名的扩展卡尔曼滤波器（EKF），在描述机器人位姿和地标位置的扩展状态上进行估计，从而形成EKF-SLAM方法。

**EKF-SLAM 的挑战

EKF-SLAM方法非常流行，但在实践中面临三个主要问题： 1. 对异常值和数据关联错误的敏感性：这些错误可能源于地点识别或物体检测的失败，例如机器人错误地认为它正在观察某个对象或地点，而实际上是在观察另一个可能看起来相似的对象或地点。如果这些虚假测量没有被正确处理，EKF-SLAM可能会生成极其错误的估计。 1. 线性化问题：EKF依赖于机器人运动和传感器观测方程的线性化。在实践中，线性化点通常由里程计提供，当里程计漂移时，线性化系统可能无法很好地近似原始非线性系统，从而导致EKF-SLAM在里程计积累大量漂移时发散。 1. 计算复杂性：卡尔曼滤波器的直接实现会导致计算复杂性随状态变量数量的平方增长，这是由于需要操作密集的协方差矩阵。在基于地标的SLAM问题中，地标的数量可能达到数千个，使得直接方法难以实时运行。

**粒子滤波的突破

为了解决这些问题，社区在2000年代初开始关注基于粒子滤波的方法 [178, 238, 103]，这些方法使用一组假设（或粒子）来建模机器人轨迹，基于估计理论中的粒子滤波理论。当与基于地标的地图结合使用时，这些模型能够处理大量地标（突破EKF的平方复杂性）；此外，它们使得密集地图模型（如二维占据网格地图）的估计更加容易。这些方法也不依赖于线性化，对异常值和数据关联错误的敏感性较低。然而，它们仍然在计算和精度之间存在权衡：获得精确的轨迹和地图需要使用大量粒子（通常成千上万），但粒子数量越多，计算量也越大。特别是在三维问题中，需要更多粒子覆盖可能的机器人位姿，这会加剧粒子耗尽问题。

**信息矩阵与优化方法

2005年至2015年间，一个关键见解推动了SLAM研究的转变。这个见解是，虽然EKF中的协方差矩阵是密集的，但其逆（即信息矩阵）非常稀疏，并且当保留过去的机器人位姿进行估计时，稀疏性模式具有可预测性 [87]。这使得可以设计近似线性复杂度的滤波算法，而非EKF的平方复杂度。这一见解最初应用于类似EKF的方法（如EIF），但也为基于优化的方法铺平了道路。优化方法最早在SLAM研究的初期被提出 [162]，但当时因计算速度慢而被忽视。稀疏结构的发现促使人们重新审视这些优化方法，并使其在在线情况下更加可扩展和可解 [65, 126]。这波新的研究浪潮可以理解为向另一种估计框架的转变：最大似然估计和最大后验估计。这些框架将估计问题重新表述为优化问题，同时以概率图模型（特别是因子图）的形式描述问题结构。基于因子图的SLAM方法至今仍然是主流，并且塑造了社区对相关问题（如视觉和视觉惯性里程计）的思考方式。优化视角不仅功能强大，还允许比以往更深入的理论分析（见第7章）。此外，可以轻松证明，EKF（在适当的线性化点上）可以理解为非线性优化求解器的一次迭代，因此优化视角比滤波方法更强大。

**面向未来的SLAM

优化视角似乎也更适合于SLAM的最新扩展（将在本手册第III部分描述），其中需要同时估计连续变量（描述场景几何）和离散变量（描述场景语义）。本历史回顾截至2015年，而本手册第III部分的目标是讨论包括“深度学习革命”（始于2012年）在内的现代趋势，这些趋势逐渐渗透到机器人学领域。值得注意的是，以上历史回顾主要集中在SLAM的后端（即估计引擎），而SLAM前端的发展则源于多个领域的工作，包括计算机视觉、信号处理和机器学习。基于上述考虑，本手册将主要关注基于因子图的SLAM方法。这是一个范围选择的问题，并不削弱其他技术工具的价值。例如，截至本手册编写时，基于EKF的工具在视觉惯性里程计应用中仍然流行（受益于Mourikis和Roumeliotis [180]的开创性工作），并且新型估计框架（如不变滤波器 [20] 和等变滤波器 [90]）以及基于随机有限集的替代方法 [181] 也在不断发展。

1.4.2 从 SLAM 到空间人工智能（Spatial AI）

SLAM 的核心关注点是估计环境（以及机器人）的几何特性。例如，SLAM地图包含有关环境中障碍物的信息、两个位置之间的距离和可通行路径，以及显著地标的几何坐标。从这个意义上说，SLAM作为一种表示方式，对于机器人理解和执行诸如“机器人：前往位置[x, y, z]”这样的命令非常有用，其中[x, y, z]是机器人需要到达的地点或物体在地图坐标系中的坐标。然而，用坐标指定目标对于非专业的人类用户来说并不合适，也绝不是我们与人类互动或为其指定目标的方式。因此，希望下一代机器人能够理解和执行以自然语言指定的高级命令，例如：“机器人：把浴室里的衣服捡起来，送到洗衣房。”解析这些指令要求机器人同时理解环境的几何信息（例如，浴室在哪里）和语义信息（例如，什么是浴室或洗衣房，哪些物体是衣服）。这种认识最近促使研究界开始将 SLAM 视为更广泛的空间感知系统的一个组成部分。这个系统可以同时推理场景的几何、语义以及可能的物理特性，从而构建一种多层次的地图表示（即“世界模型”），使机器人能够理解并执行复杂的指令。由此产生的空间人工智能（Spatial AI）算法和系统有望显著提高机器人的自主能力，并在过去十年中迅速发展。直观地说，可以认为空间人工智能将SLAM作为一个子模块（处理几何推理部分），但增加了额外的语义推理能力。这使得机器人能够完成任务规划的闭环，如图1.7所示，现在机器人可以接受高级语义目标，而不是运动目标的坐标。我们将在本手册的第III部分详细讨论空间人工智能。

**第一部分：SLAM基础

第一部分涵盖SLAM的基础知识，特别关注用于SLAM后端的估计理论工具和SLAM可以生成的不同类型的地图表示。具体来说： * 第2章 介绍SLAM的因子图表示，并回顾如何通过迭代非线性优化方法求解。 * 第3章 迈出了不可或缺的一步，将该表示扩展到平滑流形上的变量估计，例如旋转和位姿。 * 第4章 讨论了如何在SLAM后端中建模和缓解异常值和数据关联错误的影响。 * 第5章 回顾了使后端优化可微分的技术，这是连接传统SLAM方法与最新深度学习架构的关键步骤。 * 第6章 将重点从后端转移到密集地图表示的问题，讨论SLAM中最重要的表示方法。 * 第7章 讨论了更高级的求解器和SLAM后端的理论属性。

**第二部分：SLAM的实践现状

第二部分讨论SLAM的关键方法和使用不同传感器模式的应用，展示了现代SLAM算法和系统的可行性。该部分重点介绍传感器依赖的SLAM前端设计以及当前技术的应用范围： * 第8章 回顾了关于视觉SLAM的大量文献。 * 第9章 和 第10章 分别涵盖激光雷达SLAM和雷达SLAM。 * 第11章 讨论了基于事件相机的SLAM的最新研究。 * 第12章 回顾了如何将惯性测量建模为因子图SLAM系统的一部分，并讨论了基本限制（例如可观性）。 * 第13章 讨论了如何建模其他里程计信息来源，包括轮式和腿式里程计。

**第三部分：未来趋势

第三部分展望SLAM的最新研究现状和未来趋势，涉及从计算架构到新问题与表示，以及语言和基础模型在SLAM中的作用。具体来说： * 第14章 重点介绍空间人工智能未来的计算架构，这些架构可以利用更灵活和分布式的计算硬件，并更好地支持跨多种机器人平台的空间感知。 * 第15章 回顾了通过在SLAM中引入深度学习模块与可微分优化结合所获得的最新改进。 * 第16章 讨论了使用新型地图表示（包括神经辐射场（NeRFs）和高斯点阵）的机会和挑战。 * 第17章 涉及在高度动态和可变形环境中进行SLAM的最新研究，涵盖从拥挤环境中的建图到手术机器人等实际应用。 * 第18章 讨论了空间人工智能和度量-语义地图表示的进展。 * 第19章 探讨了利用基础模型（例如大型视觉-语言模型）带来的新机遇，以及它们在创建新型地图表示中的作用，这些表示能够理解并对自然语言中的“开放词汇”指令进行语义锚定。