选文| 胡琪 翻译| 叶培楚 徐礼达 张晨 周艺
审核| 胡琪 编辑| 胡琪
素材来源:Lowry S, Sünderhauf N, Newman P, et al. Visual Place Recognition: A Survey[J]. IEEE Transactions on Robotics, 2016, 32(1):1-19.
泡泡机器人推广内容组编译作品
V
记住地点:建图模块
A. 纯图像检索
位置识别最抽象的地图框架是只保存环境中每个位置的外观信息,而没有任何相关的地点信息。纯图像检索假设匹配完全基于外观相似性,并利用计算机视觉中没有指定基于位置信息的图像检索技术 [3]。虽然有了相对位置信息,但是仍然有计算非常高效率的索引技术可以利用。
位置识别中最关键也是最关心的一个问题就是系统的拓展性——随着机器人访问越来越多的地方,内存需求在不断增加的同时引起检索效率降低。因此,需要设计一个在大尺度环境下仍能保持高效性的地图。如果用词袋模型来量化描述子空间,图像检索可以通过将描述子转换成索引来加速;图像ID数字被存储中图像出现的单词里,而不是单词被存储在图像ID里。逆索引不需要在数据集所有图像中执行线性搜索,能够快速剔除不相似图像。
Schindler在 [3] 中利用分层词汇树 [95] 在一个城市大小的数据集(20千米,大约10亿个特征)上实现高效的视觉位置识别。文章还提到,如果每张图像只保存信息量最大的特征,可以显著提升位置识别的性能。而与之相关的工作 [141] 也在做。
FAB-MAP 2.0 [87] [142] 同样也利用词袋模型的逆索引技术在1000-千米的路上实现视觉位置识别。而Schindler在 [3] 中利用投票方案进行位置匹配,FAB-MAPs概率模型包含负样本的观测数据——没有出现在图像里的单词——以及正样本观测数据需要在逆索引技术应用之前先简化。
位置识别同样也能利用像词汇层级那样的位置层级做分层搜索来提高效率。Mohan在 [143] 中就利用一致性矩阵进行环境的筛选,以此提升位置识别处理的性能。
B. 拓扑地图
纯拓扑地图包含地点相对位置的信息,但并不存储关于这些地点相关的度量信息 [5] [6] [118] [119]。拓扑信息可以被用于增加正确位置匹配的数量以及滤除错误匹配 [14] [84]。FAB-MAP这类的概率系统在所有步骤中通过假设有统一的位置先验信息,能实现跟纯视觉检索一样的处理方法,当信息通过贝叶斯滤波器或其他相似技术转移时,FAB-MAP的性能会有所提升。
而图像检索技术可以利用逆索引技术提高效率,拓扑地图也可以利用位置先验信息来加速匹配,也就是说,位置识别系统只需要查找当前机器人所处位置附近。基于采样的方法比如粒子滤波,可以采样可能机器人当前所在的位置附近 [12] [13] [111] [144]。根据识别出的最相似的位置对粒子进行重采样,如果机器人定位良好,那么粒子可以保持在机器人当前位置的附近,相反,如果机器人定位丢失了,那么粒子可能就会扩展到整个环境了。
计算时间是与粒子数量成比例的,而不是与环境的大小。或者,利用环境闭环数量稀疏的特点,Latif [19] 利用拓扑信息将位置识别建模成一个稀疏的凸的L1范数最小化的问题,并应用高效的homotopy方法 [146] 来提供闭环预测。
在识别过程中加入拓扑信息使位置识别只需低分辨率的数据以及对应的低内存要求。利用稀疏的凸的L1范数最小化公式,甚至最小只需要图像中48个像素就可以实现成功的位置识别 [19]。在具有挑战性的场景中,比如一天中的不同时间,拓扑信息的加入保证视觉位置识别每张图像能尽可能小到只需要32个4位像素。
C. 拓扑度量地图
因为图像检索可以通过添加拓扑信息改进。例如,FAB-MAP [6] 和SeqSLAM [118] 原先都是纯拓扑系统,但是通过CAT-SLAM [13] 和SMART [148] 添加里程计信息后,系统每个位置识别性能都得到了改善。
这些拓扑度量地图可以是基于外观的,在这种情况下,度量信息只包含在每个地点节点之间的相对位置[151] - [154]。然而,关于地标或物体在一个地方的位置的度量信息也可以存储在每个节点[1] [2] [26] [141] [155] - [158]。如果从图像数据中提取深度信息,则可以将拓扑位置节点内的度量信息存储为稀疏的地标图 [2] [7] [76] 或稠密的占用栅格地图 [135]。虽然使用截断符号距离函数(TSDF)表示的密集空间建模的概念可以追溯到20世纪80年代中期Moravec和Elfes [39]的工作,但是只有在过去的几年随着 GPU技术的出现[135]才可行。
VI
识别地点:置信度生成模块
最终地点识别系统的目的是确定一个地方是否曾经见过。 因此,任何地点识别系统的中心目标是使视觉输入与所存储的地图数据一致以产生置信度分布。该分布提供了当前视觉输入与机器人世界地图表示中的特定位置相匹配的可能性或置信度的量度。 一般的理解是,如果两个地方的描述相似,那么它们在同一个物理位置被捕获的可能性就越大,但是这个真实的程度取决于特定的环境。 例如,重复的环境可能会出现感知混淆,不同的地方看起来不可区分。 相反,变化的条件可能会导致同一个地方在不同的时间显得截然不同。
A. 地点识别和SLAM
姿态图[159] [160] [161]在现代SLAM系统中被广泛使用,因为它们对于固定大小的地图计算高效,尽管长时间的任务也会导致计算量过大。许多系统能够独立运行SLAM-like局部度量校正和topological-like的闭环检测[1] [2] [80] [163]。
位置描述是基于外观的,并且不包含任何度量信息,但是映射包含了位置之间的度量距离,系统仍然可以使用闭环在位置水平[151]-[154]上执行度量校正。而如果位置描述包含与图像特性相关的度量信息,如FrameSLAM [2],则可以进行更精确的修正。纯粹的拓扑或纯图像检索的映射不提供任何度量的姿态修正。
包含位置描述内和位置描述之间的度量信息的位置识别映射可用于执行完整的度量SLAM解决方案。如[164] - [166]中总结的,有大量的SLAM技术。Thrun和Leonard [166]确定了三个关键的SLAM范例:扩展卡尔曼滤波器(EKF)[37],[38] [167] - [169] 和 Rao-Blackwellized 粒子滤波器 [170 ]。MonoSLAM [7] 使用了EKF,而Rao blackwel化粒子过滤器在 [12] [174] [175]中使用,并在[2] [176]中提出了图形优化技术。
B. 拓扑识别
如果有多个数据流可用,则可以使用投票方案[3][5] [79] [96] [177]。 Ulrich和Nourbakhsh [5] 使用Jeffrey散度来比较颜色直方图,根据投票结果来表现自信、不确定和矛盾。
如果一个系统使用了基于文本分析的文本分析模型,它可以使用相关的词频 - 逆文档频率(TF-IDF)得分 [56] [114] [178]。图像中的每个视觉单词都有一个TF-IDF分数,它由两部分组成——术语频率(衡量单词出现在图像中的频率)和反向文档频率(衡量单词是否跨越所有的图像) TF-IDF得分就是这两个值的乘积。
利用基于贝叶斯定理的计算方法,可以利用概率计算方法计算匹配概率。[181] 使用Parzen平滑 [125] 的高斯核函数。[83] [182]使用tf - idf来观察可能使用的词袋模型。[111] [183]采用蒙特卡洛定位(MCL)两个观测更新步骤,每一个都有一个独立的观察可能性,一个基于概率的概率,一个基于对象的可能性。Garcia- Fidalgo和Ortiz [184] 利用观察的可能性,将两个图像的特征匹配数量与图像中特征的整体数量相联系,通过一个正态常数进行缩放。
观察似然也可以通过数据驱动的方法来计算。FAB-MAP[6] [87] 是一种基于概率的数据定位系统,它使用数据驱动的方法来计算观测的可能性。FAB- MAP使用一种带有SIFT或SURF特征的词袋模型,用于图像描述,并在训练阶段计算每个单词的特殊性。FAB-MAP使用10万字的词汇表 [87] 所观测的单词的全联合概率分布(图8(a))可以用朴素贝叶斯假设(图8(b))或chow-Liu树来近似 [185] (图8(c))。
图8:FAB-MAP学习词汇外观与地点识别之间关系的概率模型。 (a)完全联合分配考虑词之间的关系(词之间的粗线代表具有最大相互信息的那些词)(b)完全联合分布的朴素贝叶斯近似忽略了单词之间的互信息,并假设所有单词都是独立出现的 (c)Chow-Liu树近似完全联合分布作为联结树,每个词只取决于另一个词
FAB-MAP不仅考虑两个位置是否具有许多共同的视觉词汇,而且还考虑共同的词语是否足够罕见以至于这些位置可以被认为是独特的,以此来处理感知混淆问题。所以如果两个位置的词都很常见,FAB-MAP将认为价值很低。
未访问位置的集合是通过从Chow-Liu树随机抽样来建模的,机器人在尚未被观察到的位置的概率是用户定义的参数。[60] [62] [186]提出了一个反复的学习机制,以产生一个代表性的世界外观的真实分布。Latent Dirichlet Allocation (LDA) [187] 将图像聚类成主要的话题,这些主题被用来产生一个世界的采样集合。在每次部署之后,随着系统逐渐学习世界,创建更好的采样集。此外,还提出了在线学习的过程:在机器人的“停机时间”期间,可以在互联网上搜索更多的相关数据,以更多地了解世界。
Olson [188] 观察到,“正确的假设通常是一致的,而错误的假设往往是不一致的”。通过计算可能的假设之间成对的一致性矩阵,并从主要特征向量中找到最一致的假设集,可以使用此属性来消除假正匹配。
这种方法与FAB-MAP对几个高度独特的匹配的要求形成对比。 相反,在大面积上需要许多匹配,但这些匹配不需要特别明显,因为匹配之间的几何关系确保了假设的唯一性。 生物学启发的地点识别方法模拟了大鼠海马中已知的地方细胞结构[116] [189]。在RatSLAM [116] 中,一种被称为连续吸引网络(CAN)的神经网络被用来对位置单元进行建模(见图9)。 一个连续的吸引网络结合局部激励和全局抑制结合自我运动和视觉传感器的输入进行定位。以类似的方式,[189]使用地点单元模型在室内和室外没有公制地图环境中执行基于视觉的导航。
连续吸引网络(CANs)是一种神经网络,可以用来模拟位置单元、头部方向单元和网格单元的行为。 (a)显示出了用于模拟头部方向单元的CAN的示例,每个细胞激发自身和附近的单位(见本地激发箭头),并抑制其他细胞。 (b)显示了一个以局部激发和全局抑制相结合产生的以120°为中心的稳定活动包来自动作输入的输入。
C. 地点识别系统的评估
拓扑位置识别系统通常使用精度和召回指标以及它们之间的关系通过精确的召回曲线进行评估。系统选择基于特定置信度的匹配。正确的匹配称为TP,不正确的匹配是FP,而系统错误丢弃的匹配是FN。准确率和召回率如下:
一个完美的系统可以达到100%的精确度和100%的召回率。精确度和召回率通常通过一个精确的召回曲线相互关联,该曲线在一定范围的置信度值下绘制精确的召回图。
直到最近,一般认可优先避免FP[6],因为在地图中引入错误的匹配可能会导致灾难性的失败。因此,在100%的精确度的情况下进行召回是地点识别成功的关键指标。然而,[190] - [192]的注意力却从消除所有的误判变成寻找许多潜在的匹配,然后纠正拓扑后处理中的任何误匹配。当严格的匹配方法可能失败时,在变化的环境中进行场所识别时,增加潜在匹配的数量显得更为重要。
此外,随着地点识别系统从“示范”(通常具有预先记录的数据集)过渡到“部署”(在自主车辆上实时运行),性能评估方法可能会进一步改变,以考虑空间分布的地方在环境中匹配。例如,McManus,Churchill等人[193]使用没有成功的匹配行驶给定距离的概率作为地点识别成功的度量。
01
VII. 在变化的环境中的视觉识别
早期的位置识别系统通常使用简化的假设,即每个地方的视觉外观在实验过程中不会改变。 然而,随着机器人系统在更大的,不受控制的环境中运行时间更长,这种假设不再有效。因此,近年来,人们越来越重视创建持久的机器人导航系统,包括持续的地点识别技术。本地化和生成动态环境地图的能力已已经是至关重要[194]。本节重新讨论了以前的每个概念——如何表示一个地点、地图框架是如何工作的以及置信度生成过程是如何工作的,并讨论如何改变每个环境来管理变化中的环境。
A. 描述变化的环境中的地点
很明显,由于包括照明和天气变化在内的大量原因(见图1),地点的外观会随着时间而变化很大。 有两种方法在面对外观变化时执行场所识别:第一种方法试图找到场所的条件不变描述,局部特征描述符设计为缩放,旋转和照明不变的方式。 第二种方法试图了解如何改变外观。
1)不变的方法
在不断变化的环境中,使用传统的局部特征来匹配位置的困难对于持续的机器人导航来说是一个重要的问题:Furgale和Barfoot[117]观察到,由于外观的变化,尤其是灯光的变化,SURF的非重复性是视觉教学和重复实验中失败的主要原因。现有的图像描述方法已经过测试,以确定其对照明和其他变化的鲁棒性。在 [195] 中,Valgren和Lilienthal在照明、云层覆盖和季节条件的变化上测试了SIFT特征和一些SURF变种。 SURF变种的性能都优于SIFT,但是没有一个测试的特征在所有条件下都是稳健的。然而,在后来的工作[100]中,作者将U-SURF [73](最成功的SURF变体)与使用极线约束的一致性检查相结合,并在小的(40个图像)数据集内实现了80%到100%的正确匹配。
[196] [197]研究了光照变化对特征的影响,用连续时间的连续镜头来确定每个描述符的光照灵敏度。在每个图像中都预定义了特征键值,只测试了特征描述符的方差,与Valgren和Lilienthal[100] [195]的工作对比,测试了特征检测器和描述符的组合效果。u - sift[72]描述符显示测试描述符的最大亮度不变性。除了使用SIFT或SURF等点特征外,还可以选择其他描述符。全图像描述符已被用于诸如SeqSLAM [118] [119] [198]的系统,这些系统显示出对抗环境变化的稳健性。然而,对于其他描述方法,外观变化过于剧烈将导致系统故障[111],而全图描述符也会受到视点变化敏感度的额外问题[199]。边缘特征可以在适当的环境中使用[174] [200],因为它们不受光线,方向和比例的影响[200]。Nuske,Roberts等人[200]使用基线定位,用鱼眼相机对现有的地图进行定位,并在7:00到17:00的不同时段在各种照明条件下在户外工业区进行测试。Borges, Zlot等人[201] 扩展了这个系统,使用三维激光数据生成自己的边缘图进行定位。然而,使用边缘特征的数据关联可能是具有挑战性的[174]。
利用阴影去除[202]和光照不变色彩空间[193]技术可以减轻由光照变化引起的外观变化,也可以利用基于硬件的方法解决在光照变化下的地点识别问题。McManus,Furgale等人在[203]利用激光扫描测距仪来生成图像,所得到的图像可以不受光照变化的影响。这种方法的优势在于能够适应完全黑暗的环境。还有一种硬件方案是使用长波红外热成像摄像机。Maddern和Vidas [204] 研究表明当夜间可见光相机定位失败时,热成像摄像机可以提供更好的夜间成像效果。
对于变化环境中的地点识别问题,卷积神经网络(CNN)被看作是具有鲁棒性的特征提取器。探索CNN在地点识别应用的动机是因为CNN具有学习通用特征的能力。[207] [208]利用CNN特征作为全局图像的描述子,并分析了CNN在不同层用来对抗识别外观和视角变化的鲁棒性问题。他们发现提取的中层特征对对抗外观变化具有鲁棒性,而高层特征对对抗视角变化更具有鲁棒性。并且高层特征含有更多的语义信息,可以用来分割搜索空间[208]。
颜色信息作为视觉数据的一部分,并没有在变化环境问题上被深入研究。虽然卷积图像描述子(例如SURF ,BRISK)都处理的是灰度图像,但大部分相机都捕捉的是彩色图像,这将会为变化环境中的地点识别提供潜在的感兴趣信息。在变化环境中的地点提取问题上,颜色信息产生了一个有趣的悖论:一方面光照变化的场景,颜色信息被证明是一种较差的特征[196];另一方面,相关颜色信息又能体现光照变化,这可以帮助进行地点识别和去除阴影[202]。在白天,利用颜色信息的光照不变图像对地点识别来说会更可靠,因为在晚上黑体光照假设会被违背[209]。
2)学习方法
通过学习每次地点如何变化的关系来选择不变规律。这种方法假设地点变化是以一种相同的方式进行改变的,这样训练后能生成之前未曾访问过的地点。这一假设被[210] [211]中不同位置的网络摄像头所测试,演示表明不同地方最显著的变化是相类似的。此外,训练的数据可以用来计算基于编码的新地点而仅仅损失很小一部分精度。
Ranganthan,Matsumoto等人[212]研究了精细词汇表,精细词汇表类似于词包模型,它通过描述符(如SIFT描述符)进行空间分段。由于光照变化,视角变化等其他因素的影响,描述子会以一种高度的非线性方式进行变化。[212]中通过分布式学习训练多个在不同光照条件下的匹配来生成相应的概率分布。改进的表现是使用了传统的词汇树[95],使得数据集中的正确匹配数提高了10%~15%。此外KL-divergence也在距离度量和概率距离度量上的效果得到了提升。
利用网络摄像机,Carlevaris-Bianco和Eustice[214]跟踪不同光照条件下的图像块,生成了一个积极和负面例子都有的大集合(包含300万个特征)。利用这些数据,利用神经网络技术[215]进行建图。在地点识别中,NN产生的建图描述子要比SIFT和SURF描述子要好。其中对比SURF描述子,匹配的正确率提高了10%。
Neubert,Sünderhauf等人[18]研究了两个不同季节的视觉变化。[216]利用SLIC superpixels分割两个不同季节的图片再进行训练。超像素图像被颜色直方图和SURF描述子来表示,研究得到从一个季节到另一个季节变化的超像素词典。类似的,Lowry,Milford等人[217]研究了图像捕捉在早晚的线性变换。但是这样的外观转化要想成功,训练的图片必须对齐得很好。
基于学习的方法通常需要一个监督学习阶段,这意味着外貌变化是已知的,相关的训练数据是可用的。Lowry,Wyeth等人[218]提出了一个无监督学习来处理变化环境中的地点识别问题。这种方法将地点里通常相同的部分移除掉,这避免了误匹配从而提高了稳定性。
B. 在变化环境中的地点记忆问题
如果周围环境发生改变,那么地图也需要改变以继续表示周围环境。系统必须决定什么内容要记住,什么内容要忘记。这可能对系统保持一个地点的多种表示方式是有益处的,因为地点可以在不同的要求之间变化。本节介绍了地点识别的地图框架(有能力以以下两种方式来处理变化的环境)通过决定要记住什么和忘记什么,和/或记住多个不同的表示。这些系统并不是单独只针对视觉系统,还可以用来设计处理激光数据。
1)记忆和遗忘数据
在动态环境中,每个地点的表示都必须随着机器人获得新的观察结果而更新,所以必须在最新获得的观察结果和覆盖过时信息之间找到一个平衡点,不允许对结果影响很小的事件来改写现状。但是,这是很难来确定哪些事件是暂时的,哪些是有价值记忆的。从神经科学的概念中汲取灵感,Biber和Duckett[219]将此称为“稳定-可塑性困境”。生物大脑可以对应对这种困境的解决方案产生启发。人类记忆模型中的感受记忆,短时记忆,长时记忆被用来生成记忆和遗忘的决策模型。
一个生物启发映射系统利用传感器可以得到短期记忆和长期记忆的存储空间[220]。第一阶段,有选择性的关注机制决定了哪些信息将从感官记忆升级为短期记忆,第二阶段涉及到使用一个排练机制来确定哪些信息将从短期记忆转移到长期记忆。运用之一和排练机制确保更多稳定,频繁出现的特点被记住,而短暂出现的部分被遗忘。
Andrade-Cetto和Sanfeliu[223]要求特征是值得信赖的,可靠的。而Bailey[222]认为一个有用的标准是可见性。一个易受到环境因素拦截的错误是在未来不太有用的。Johns和Yang[102]和Hafez,Singh等人[224]利用词袋模型测量特征的价值,并考虑了可区分行和可靠性。Johns和Yang同样提出了生成词袋模型,并考虑了每个数据点的误差和均值。
2)环境的多重表示问题
随着时间的推移,地点不仅会出现变化,而且会循环出现无法用单一描述子描述的现象。在为期两周的办公室实验中[226],Milford和Wyeth指出:周期性变化(比如日夜更替)是系统处理效率低下的原因。通过一个晚上对地图的修剪过程会妨碍白天时的地图定位。
Ranganathan,Matsumoto等人[212]表示,对于一个室内办公室环境,周期为24小时的地图定位,每个位置需要大约3~4个图像才能持续良好的工作。
一个地点识别系统可以使用相同环境的多个地图。在Biber和Duckett的工作中,每张地图记忆不同的时间尺度[227]。其中一些地图代表着短时记忆,这些将会被随时更新。而另一部分代表着长时记忆,它们可能几小时,几天,几周都不会被更新。在环境中,保持地图在不同的时间尺度更新确保了旧的测绘数据不会立即被临时的改变所覆盖。相反,最稳定的元素是随着时间的推移而加强的,而短暂的事件会被过滤掉。地点识别是通过选择本地地图中当前最适合的传感器数据来执行的。
当系统维护相同的多个地图环境时,只有在需要时才添加新的地图配置,而不是按照预先设定的时间表[221]。此外,Stachniss和Burgard[228]注意到不是每个地点都需要多个地图来表示(比如在门口可能会表现出更多的变化)。这些区域可能只有1~2个关键配置(例如一扇门可能会打开或关闭)。所以世界可以用有限数量的子图来被描述得足够准确。只要区域中的动态活动被发现就可以用来分割剩下地图中的子图。使用模糊k-均值聚类和贝叶斯信息准则来确定这个地区的最优匹配数量。
图10. 变化环境的变化外观需要系统存储每个地点的多个表达。此图展现了在一个月的反复遍历同一路径后,存储的机器人的“经历”的数量。大多数地点需要5-10次经历(蓝色),而有一些需要30次以上(红色)。
机器人需要观察到并能够去除场景的移动物体[230] [231]。但是,有些半静止的物体不是明显移动,但是随时间出现或消失。尽管可以把这些物体视为不确定因素从而去除[69] [232],这些物体也有可能对临时的定位有帮助[232]。比如,在停车场,一些静止物体像是墙可能很遥远而且不可区分,因此对定位无用,而一些半静止的物体如停着的车辆,数量多而且相对的可区分,因此在离开之前,可以用于在几小时到一天之内的定位。在这种情况下,当机器人的观察与静止地图不符时,可以建立临时地图。当临时地图在连续时间内无法合适地匹配机器人观测时,可以舍弃这个临时地图。
以上提到的系统[221] [227] [228] [233]是度量系统。如果多次训练是可行的,基于外表的系统也可以有多种表达。Johns和Yang[102] 在14:00到22:00之间进行了五次训练,每次在城市道路上20km,生成了co-occurrence地图,然后可以在五次的插值的时间上进行定位。
McManus,Upcroft等[120]在环境中用多种训练来学习场景签名,即对外形变化稳定的局部独特的元素。对于环境中的每个地点,特意选择独特和稳定的图块。选择的图块用HOG来描述,并用对每个地点训练SVM。运用场景签名可以在31个数据集中对地点的100%正确识别,而SURF在雨或雾天表现不佳。
如果环境的外表会受一系列隐藏的周期性过程影响,谱分析的方法例如傅里叶分析可以用来预测最有可能的外观。Krajnik,Fentanes等人[234]运用这种方法可以使三个月后的地点识别错误率减半。
所有上面提到的系统都有一个前提,就是机器人对于视觉上不相似的地点表达仍可以正确的匹配。在变化的环境中,系统不能清楚识别该地点则无法更新地图。为了避免这个前提,Churchill和Newman提出来了塑性地图的概念[15],用机器人的经历而不是物理地点去定位。每当机器人达到一个未被识别出的地点,则生成一个新的经历,每个地点可以有多个表达。但是,与之前讨论的系统不同,多种表达不一定要与同一个物理位置相链接。如果系统可以识别并链接更多的经历,塑性地图则可包含更多信息。该方法在识别失败的情况下并不会引起地图的毁坏,是个实用的方法。
对每个位置保留多种表达会增加地点识别搜索空间并降低效率。因为相似时间段内的观察往往有相似的外表性质,未来可能的搜索可以根据当前位置的置信度来选择。Carlevaris-Bianco和Eustice [235] 用Chow-Liu树来处理两个位置采样的可能性,Lineagar,Churchill [236] 用路径记忆来选择过去的经历作为候选匹配,并在并未增加计算时间的同时提高了识别正确率。
C. 在变化的环境中识别地点
在地点识别系统中加入外表变化需要对置信过程做出改变。首先,环境变化使得同一地点需要多个描述,从而一个系统可以根据当前的传感信息选择最佳的匹配[227],或者根据预测的最有可能的外表进行匹配[18][234]-[236]。
除此之外,地点识别系统可以并行地运行多个假设。Churchill and Newman [15]给每个保存的经历信息匹配其地点识别器,从而报告是否成功的在这个环境中定位。Morris, Dayoub 等[221]对可能的地图和机器人位姿进行过滤。除了选择对当前传感信息最佳匹配的单一地图,系统可以在多个地图中跟踪多个导航假设,从而每次从中选择最佳的假设。运用多地图假设可以降低室内轨迹误差80%平均错误率。
在变化环境中地点识别中,由于传感信息越来越不可靠,拓补信息越来越重要[118] [119]。对于图片序列而不是单张图的匹配可以提高在变化环境中地点识别[14] [84] [118] [149],图片序列可以与条件随机场[237]进行整合从而对闭环进行识别和验证[14]。
适应变化环境的地点识别系统假设不止使经过一个特定地点,而是通过环境中的一个相同或很相似的路径。SeqSLAM证明图像序列在视觉上有挑战的环境中依然奏效。原始版本假设遍历过程中速度相似。可以用搜索非线性或线性路径的方法[102] [150]。Liu和Zhang[238] 用粒子滤波去提高穷举搜索的计算效率,在同样精度下实现了10倍的加速。
Nasser,Spinello等人[119]构造了一个最小价值流minimum cost flow来代表图像序列的匹配。流网Flow network构成有向图,其起点和终点代表地点识别中路径的起点和终点。使图像匹配的值等与流价值flow cost,从而找到最优的图像序列。通过使结点匹配或隐藏来改变速度。相似地,Hansen和Browning[239]用隐藏马尔科夫模型通过Viterbi算法来决定在一个环境下的最有可能的路径。
01
VIII. 结论
视觉地点识别在过去十五年来取得了巨大的进展,但离一个对平台以及环境鲁棒性很强的系统还有很大的距离。为了实现这个目标,本节我们将介绍一些很有前景的解决方案。
处理外表变化的最好办法往往要以视角不变或者增加训练量作为代价。当传感信息不可靠时,拓补信息可以用来补偿,因此需要长距离的视角不变。其他方法包括用图片块代替整张图片,原因是图片块在视角大致不变的情况下对场景变化更加不敏感,而深度学习的方法对视角变化不敏感。
计算机视觉中的深度学习,图片分类,物体识别,视频描述等领域的长足进步促进了视觉地点识别的发展。尽管卷积神经网络等技术依赖于大数据和大计算,像云机器人以及线上/线下的数据处理在便宜的小型移动平台上就能运行。GPU和相机传感器的发展将提高现有方法的效率和鲁棒性,并促进新方法的出现。
物体识别和场景分类的研究也促进了地点识别的发展。借助物体识别,我们可以有选择性的保留地标,例如保留建筑物而忽略行人。通过对物体是静态或动态的识别,并提取时间和语义信息,可以提高识别的鲁棒性,例如,停车场的车可以对临时性的地点识别提供线索。卷积神经网络也是未来的研究热点。
语义场景可以缩小搜索空间为语义相近的场景。语义信息帮助学习和预测场景的变化,并帮助增加对环境的鲁棒性。语义地图可以减小内存需求,如今的主题建模,核心点(coreset)和其他语义压缩方法已经显现出成效。
最后,视觉地点识别为其他研究领域能提供什么启示?视觉地点识别需要在更加严格约束的任务中实现解决条件不变的识别问题。获取鲁棒特征的方法和综合外表变化和视角变化等方法,对其他机器人任务,例如物体识别和分类,遥感,环境监等,有着指导意义。
#泡泡机器人新闻社-往期回顾#