图像匹配旨在建立图像之间的点对应关系,是许多计算机视觉任务的关键环节.近年来,随着深度学习技 术的发展,图像匹配方法已从以手工设计特征为主转变为基于深度网络的方法,基于深度学习的图像匹配方法在 多个标准数据集上展现出卓越的性能,推动着多个相关应用的发展.围绕图像匹配涉及的若干关键问题,如:特征 点检测、特征点描述、稠密点匹配、误匹配去除,本文对深度学习图像匹配方法进行了系统性总结.首先分析了领域 内基于深度学习的典型方法和关键技术,随后介绍了与图像匹配密切相关的几个典型应用并给出其现状分析,最 后,根据对图像匹配领域技术发展的分析总结,结合作者在该领域的长期研究积累,本文给出了目前图像匹配所面 临的主要挑战以及未来发展趋势.
http://cjc.ict.ac.cn/online/onlinepaper/kqq-202479160641.pdf 图像 匹 配 旨 在 建 立 不 同 图 像 之 间 相 同 物 理 点[1,2]或者相同语义点之间的对应关系[3,4],其中后 者亦称为语义匹配,本文主要讨论面向前者的图像 匹配方法,两者的具体定义和区别详见第2节.建立 同一实际物体在不同图像之间的点对应关系,是三 维计算机视觉的基本出发点[5,6],许多三维计算机 视觉的理论都建立在已知图像点对应关系基础上, 三维重建[7,8]、相机姿态计算[9]、视觉定位[10,11]、图 像拼 接[12]、增 强 现 实[13]、同 步 定 位 与 地 图 绘 制 (SimultaneousLocalizationand Mapping,SLAM)[14-16] 等三维计算机视觉应用都离不开高质量的图像匹配 算法.此外,高质量的图像匹配算法还可直接应用于 物体识别[1,17]、目标跟踪[18,19]等经典计算机视觉问 题,而且遥感图像和医学影像处理中的图像融合与 变化检测等应用方向[20-23]均离不开图像匹配.可以 说,图像匹配是计算机视觉和图像处理领域极具应用 价值的一个研究方向,得到了研究人员的广泛关注. 早期的图像匹配方法以手工设计的特征为主, 其中最 具 代 表 性 的 工 作 是 SIFT (ScaleInvariant FeatureTransform)[1]和 SURF (SpeededUpRobust Features)[24],尤其是SIFT,不仅推动了图像匹配领 域的技术进步,还影响了图像识别、目标检测等众多 计算机视觉技术的发展.例如:在 SIFT 基础上提出 的 HoG (HistogramofGradients)[25,26]特征在深度 学习出现之前一直都是行人检测领域的主流方法, 并 在 一 般 性 的 目 标 检 测 领 域 也 得 到 了 广 泛 应 用[27,28],而基于 SIFT 这种局部图像特征发展起来 的视觉词袋(BagofVisualWords)[29,30]方法则在很 长一段时间都主导着图像分类技术的发展.比SIFT 计算更加高效的 SURF 方法则推动了许多对实时 性图像特征点匹配有要求的应用技术发展,如:目前 广泛使 用 的 视 觉 SLAM 方 法,即 ORB-SLAM 系 列[14,31,32],依 然 是 基 于 手 工 特 征 ORB (Oriented FASTandRotatedBRIEF)[33]的方法. 图1概括了前深度学习时代图像匹配领域典型 方法的发展历程,包括最早期的基于灰度统计量的 方法[34-36]、后续出现的基于梯度统计量[1,2,24,37]、基 于灰度大小关系[38-40]和基于二进制特征表示的方 法[33,41,42],以及在深度学习出现之前使用传统机器 学习方法进行数据驱动的图像匹配方法的一些尝 试[43-45],更多关于手工设计的图像特征匹配方法的 介绍可参考综述论文献[7,46-48],本文聚焦于深度 学习时代的图像匹配. 随着深度学习技术的不断发展[49-52],图像匹配 领域也取得了长足的进步,出现了许多优秀的基于 深度学习的方法,在图像匹配涉及的多个方面均取 得了显著效果,如:图像特征点检测[53]、图像特征点 描述[54]、稠 密 图 像 点 匹 配[55]、错 误 匹 配 点 滤 除[56] 等.相比传统的手工设计方法以及非深度学习的机 器学习方法,基于深度学习的图像匹配方法不仅在 图像匹 配 相 关 的 数 据 集 上 取 得 了 卓 越 的 性 能 提 升[47,57],而且在多个以特征匹配为基础的下游任务 上展现出强大的应用潜力,包括基于图像的大场景三 维重建[7,58]、基于图像的定位[11,59]、视觉 SLAM [60]、 多模态融合[22,61,62]等.尽管文献中提出的许多方法 在不同方面促进了图像匹配技术的进步,已有的综 述主要聚焦于总结稀疏特征点匹配中不同的特征点 检测与特征点描述方法[47,48,63]、或者基于某个特定 任务/数据集对不同的特征点检测与描述方法的组 合进行性能对比分析[7,61,64,65],本文从稀疏特征点 匹配与稠密点匹配两个角度,聚焦于近年来深度学 习在这两个领域相关技术问题上的突破、对已有方 法进行了深入总结与分析,并且对误匹配去除、典型 的下游应用技术进展进行了详细介绍,给出了相关 研究所涉及的数据集,力求给读者展现出图像匹配 这一领域的全貌和最新的技术突破点,帮助进入该 领域的研究人员快速掌握图像匹配的内涵、难点、关 键技术与数据集资源等. 本文首先在第2节给出图像匹配问题的正式定 义和研究难点;之后,将在第3节至第5节对近年来 该领域的代表性方法进行综述,总结分析现有方法 的特点、内在联系、发展历程,以及关键技术等,涵盖 稀疏特征点匹配、稠密像素点匹配和错误点滤除三 个方向,试图给读者一个关于该领域的发展、现状和 关键技术的全面了解.另一方面,深度学习的出现也 革新了许多计算机视觉问题的技术路线,如:基于局 部图像特征的视觉词袋模型[29]在深度学习出现之前占据了图像分类方法绝对的主导地位,而深度神 经网络端到端学习能力使得图像分类这一典型的计 算 机 视 觉 问 题 不 再 依 赖 于 局 部 图 像 特 征 的 设 计[49,52],目 标 检 测 也 不 再 依 赖 繁 琐 的 特 征 工 程[66,67].换句话说,随着深度学习技术的进步,图像 特征匹配以及相关的局部图像特征提取的应用范畴 也发生了较大变化,本文将在系统总结分析基于深 度学习的图像匹配方法基础上,在第6节给出一些 目前仍然极度依赖局部图像点对应关系的典型应 用,并介绍其现状,第7节对图像匹配及其下游应用 任务的研究中经常使用的数据集进行介绍.最后,值 得指出的是,尽管深度学习技术在图像匹配问题的 成功应用,使得图像匹配技术的发展取得了可喜的 进步,实际应用需求的不断延申也对其提出了新的 要求,本文第8节将对该领域的现有挑战与未来发 展方向进行展望.