深度学习图像匹配：综述与展望

摘要——图像匹配旨在建立双视图图像之间的对应关系，以恢复三维结构和相机几何，是计算机视觉领域的基石，支撑着诸如视觉定位、三维重建和同时定位与建图（SLAM）等诸多应用。传统图像匹配流程由“特征检测-描述子、特征匹配、离群点过滤与几何估计器”组成，在复杂场景下往往表现不佳。近年来，深度学习的发展显著提升了图像匹配的鲁棒性和准确性。本文从一个独特视角出发，全面回顾了深度学习如何逐步革新经典图像匹配流程。我们提出的分类方法在两个关键方面与传统流程高度契合： i）将传统流程中的各个步骤替换为可学习的模块，如可学习的特征检测-描述子、离群点过滤器和几何估计器； ii）将多个步骤整合为端到端可学习的模块，如中层稀疏匹配器、端到端半稠密/稠密匹配器和位姿回归器。我们首先分析这两种策略的设计原则、优势与局限性，随后在相对位姿恢复、单应性估计和视觉定位等任务上对典型方法进行基准评测。最后，本文讨论了当前的开放性挑战，并展望未来的研究方向。通过系统地分类与评估基于深度学习的图像匹配策略，本文为不断演进的图像匹配研究提供了清晰的全景视图，并指出了值得深入探索的关键路径。关键词——三维视觉，图像匹配，深度学习。

1 引言

计算机视觉通过处理、分析和解释由相机等传感器采集的图像，已成为人工智能感知环境的主要手段之一。而图像匹配技术通过建立二维图像之间的三维关系，是计算机视觉众多应用中的基础构件，使机器人能够全面感知世界。该核心技术旨在识别不同视角图像对中的相同纹理或区域（通常以关键点形式表示），并建立图像间的对应关系（匹配点），从而恢复三维结构并估计各视图与物体之间的空间关系，支撑图像检索 [1]、视觉定位 [2]、三维重建 [3]、运动恢复结构（SfM）[4]、同时定位与建图（SLAM）[5]、新视角合成 [6] 等广泛应用。图像匹配的研究可追溯至早期的模式识别研究和人类视觉理论 [7]，这些理论催生了模板匹配 [8] 和互相关 [9] 方法。随后，“兴趣点”概念被提出 [10]，用于定义图像中具有辨识度的特征点（关键点），由此形成了标准的基于特征的图像匹配流程：包括特征检测与描述、特征匹配、离群点剔除以及几何模型估计，该流程如图 1(II) 所示，并将在第 2 节中简要回顾。尽管在理想条件下表现良好，但该流程在强光照变化、大视角变换、纹理稀疏、重复图案或遮挡等极端情况下常常失效。近年来，基于学习的方法被提出以提升这一基础流程的鲁棒性与准确性。一种直观策略是将各模块替换为可学习的组件，如图 1(III) 所示。这包括：用于更优特征表达的可学习特征检测-描述子、能在挑战条件下实现可靠匹配的离群点过滤器、以及用于稳健位姿估计的几何估计器——尽管仍依赖于特征相似性进行匹配。另一种策略则是将连续步骤整合为统一模块，形成图 1(IV) 中展示的三种典型范式： * 中层匹配器（Middle-end Matcher）：结合特征匹配与离群点过滤器，在可学习特征空间中直接挖掘图像间的对应关系； * 半稠密/稠密匹配器（Semi-dense/Dense Matcher）：进一步将特征检测-描述子也纳入端到端框架，避免了传统模块间的不一致性与不适配问题； * 位姿回归器（Pose Regressor）：跳过显式匹配，直接回归两视图间的变换关系，无需迭代几何模型拟合。

上述可学习方法将在第 3 和第 4 节中分别详述。我们还通过图 2 所示的时间轴，描绘了基于深度学习的图像匹配方法的发展历程。本文旨在系统回顾机器学习和深度学习如何逐步替代经典图像匹配流程中的各个组件，回顾各独立模块和融合框架的演进历程，并通过多项任务的统一实验比较不同方法的优劣。已有的相关综述多集中于流程中的某一阶段。例如，一些早期综述仅聚焦于特征检测与描述阶段，涵盖了人工设计方法 [11][12][13] 与可学习方法 [14][15]；Zitova 等人 [16] 对整个流程进行了更广泛的概览，但该工作早于学习方法的兴起；Ma 等人 [17] 首次覆盖了全流程的手工与可学习方法，但未涉及近期发展的融合模块。较新的综述 [18][19] 提出了“基于检测器的方法”与“去检测器的方法”等新术语，但未明确将这些方法与传统流程对应，也未全面涵盖可学习的几何估计器、位姿回归器、多个离群点过滤器及新近图像匹配方法。相比之下，本文专注于基于学习的方法，具体贡献如下： * 提出一种与经典流程对齐的分类方法，全面覆盖了可替代的可学习模块与融合式可学习模块，见图 1； * 补充了此前综述中遗漏的相关方法，提供最新全面的图像匹配研究全貌； * 在相对位姿估计 [20]、单应性估计 [21]、匹配准确率评估 [22] 与视觉定位 [23] 等任务上开展统一实验，实现公平一致的跨类别比较。

我们的贡献总结如下：

全面综述图像匹配领域中基于学习的方法，提出与传统流程对齐的分类体系，揭示各模块如何逐步被可学习方法取代，及多个阶段如何融合为统一模块； * 深入分析可学习替代模块与融合模块所面临的关键挑战，梳理各类代表性解决方案，追踪各类别内部的方法演进； * 系统评估多个任务中的代表方法，揭示当前学习方法仍未解决的问题，并指出值得探索的未来研究方向。