本教程涵盖了大规模的视觉定位任务,其目标是仅基于视觉信息对单个图像进行定位。该教程包括不同粒度级别的定位方法,从简单的命名位置识别和GPS估计到6D相机姿态的精确估计。教程的范围涵盖了不同的空间/地理扩展,例如小型室内/室外场景,城市级别,世界级别,以及变化条件下的本地化。
在粗定位机制中,任务通常通过检索方法处理,这在本教程的第一部分中有所介绍。一个典型的用例如下:给定一个带有地理标记的图像数据库,目标是确定新查询图像中描述的位置。传统上,这个问题是通过将最相似的数据库图像的地理标记转移到查询图像来解决的。本部分主要关注用于检索的可视化表示模型,其中包括经典的基于特征的方法和最近的深度学习方法。本教程的第二部分和第三部分分别介绍了基于特征和深度学习的精确定位方法。这些算法的一个典型用例是估计(6自由度)构成完整的6自由度的查询图像,即图像拍摄的位置和姿态,对于某些应用,如机器人、自动车辆自动驾驶汽车,增强/混合/虚拟现实,环路闭合检测在大满贯,和Structure-from-Motion。
本教程涵盖了视觉定位的最新技术,有三个目标:1) 全面概述当前的最新技术。本课程面向刚开始学习或对该主题感兴趣的一、二年级博士生和工业工程师。2) 让专家教授更多有经验的博士生和工程师,他们想要完善自己的视觉定位知识。3) 突出当前的公开挑战。这概述了当前算法能做和不能做的事情。在本教程中,我们提供了有关所讨论方法的公开源代码的链接。我们还将强调用于实验评估的数据集的不同属性。