遥感图像匹配是遥感图像处理的关键基础,一直是国内外学者研究的热点.由于多模态图像具 有辐射差异、几何差异、尺度差异、视角差异、维度差异等特性,目前尚未出现一种普适性强的通用匹配 方法.随着遥感、人工智能、大数据等技术的不断发展和应用领域的持续拓展,图像匹配技术体系也在 不断地发展和演化.本文在系统梳理图像匹配技术发展历程的基础上,对多模态遥感图像匹配分类体 系进行了归纳总结,从特征驱动和数据驱动两方面论述了多模态图像匹配技术研究的最新进展,并指出 其面临的核心困难及未来发展趋势,以期推动多模态图像匹配研究更加深入发展.
https://www.proquest.com/docview/2762943583?pq-origsite=gscholar&fromopenview=true
0. 引言
遥感图像匹配是遥感图像处理中的基础任 务,是指通过空间变换将一幅图像映射至不同时 相、不同角度、不同光照等条件下获取的同一场景 的另一幅或多幅图像中,在该两幅或多幅图像之 间建立空间对应关系的过程[1G2].遥感图像匹配 作为遥感图像拼接、融合、变化检测和目标定位等视觉处理与理解任务的核心基础,在自然灾害应 急、损毁评估等领域发挥着重要作用[3].随着遥 感技术的高速发展,可见光、多/高光谱、红外、合 成孔径雷达(SAR)、激光雷达等覆盖天空地不同 平台的传感器不断涌现,为人类对地观测提供了 多种数据源[4G5].如何有效集成多传感器、多分辨 率和多时相的遥感数据,对其进行深入处理分析, 已成为现阶段遥感领域研究的热点与重点,而多 模态遥感图像匹配则是其中迫切需要解决的核心 问题之一.多模态遥感图像匹配通常指不同传感器(如 可见光和SAR传感器,可见光和红外传感器等)、 不同成像平台(如卫星平台与航空平台、航空平台 与地面车载平台等)之间的图像匹配,图像之间存 在典型的“五差异”(成像特性差异、几何差异、尺 度差异、视角差异、维度差异等的一种或几种)和 “三不同”(不同环境、不同天气、不同天候等),给 高精度匹配带来了极大的困难[6G8].其难点主要 表现为:①图像匹配的核心是要找到同名特征,但 由于多模态图像特征异构,如何准确定义和描述 同名特征,如何对同名特征进行表征是个难题; ②多模态图像之间的同名特征很难提取,即使在 不同视角和维度下提取到同名特征,也存在不完 整、难对应的情况;③在特征表征和描述不完备情 况下,很难定义有效的相似性测度来度量两个特 征集间的相似性.
成像传感器的不断涌现和应用成像方式的各 种变化给多模态遥感图像匹配带来持续不断的挑 战,对其研究和应用是学术界和工业界持续关注 的焦点之一.国内外众多研究机构(如武汉大学、 电子科技大学、西北工业大学、西南交通大学、中 国科 学 院、旷 视 研 究 院、洛 桑 联 邦 理 工 学 院(EPFL)等)和学者提出了大量的多模态图像匹 配方法[9G12].关于图像匹配方法的大赛也如火如 荼,如 CVPR2021Image Matching、2020 年“智 箭火眼”人工智能挑战赛等,这些比赛均受到了 众多关注.从最初互信息(mutualinformation, MI)和相位相关(phasecorrelation,PC)方法被适 用于多源遥感图像匹配[13G14],到许多学者通过设 计改造特定的手工特征描述用于多模态图像匹 配,再到深度学习技术被用来解决多模态图像匹 配难题,多模态图像匹配技术在近几十年得到了 长足的发展.目前的一些综述文献对图像匹配进 行了分类整理[15],这些研究普遍认为图像匹配是 一个复杂的综合处理过程,仅靠单一图像匹配算 法无法解决所有的图像匹配问题[16G18],但是并未 对多模态图像匹配理论和方法进行系统分析,也 没有提出较为系统的解决方案.总体来说,尽管 多模态图像匹配方法和应用都取得了很大进展, 但是目前尚未出现一种普适性强、适用于所有情 况的方法.
1 多模态图像匹配发展现状
多模态图像匹配方法根据数据源角度可以分 为:可见光与 SAR 图像匹配、可见光与红外图像 匹配、红外图像与 SAR 图像匹配、可见光与多光谱图像匹配、遥感图像与 GIS矢量匹配、遥感图 像与视频数据匹配、遥感图像与三维点云匹配. 根据传感器平台可以分为:卫星影像与航空影像 匹配、航空影像与地面照片匹配、卫星影像与地面 照片匹配[19].一般认为,多模态图像匹配方法是 在传统的图像匹配方法基础上发展起来的,可划 分为基于特征驱动的匹配方法和基于数据驱动的 匹配方法.以时间脉络为序,多模态图像匹配方 法主要包括以下3个典型的发展阶段(图2): (1) 萌芽期(1970—1990 年).最初的图 像 匹配是利用相关系数实现,通过计算图像中选定 的模板区域的相似性,从中构建图像之间的匹配 关系.把图像信号最为相似的区域称为同名区 域,同名区域的中心点称为同名点,这就是最初相 关系 数 图 像 匹 配 基 本 原 理,也 称 之 为 模 板 匹 配 (templatematching),现有图像匹配方法基于模 板匹配雏形发展而来.在该类匹配算法中常用的 相似性度量函数包括差方和(SSD)、归一化互相 关(NCC)、互信息(MI)和相位相关(PC)等[20G22]. 最初学者们发现,一般 SSD、NCC 和 PC 受非线 性灰度畸变的影响很大,难以应用于多模态图像 匹配.互信息(MI)被证明在一定程度上能够抵 抗非线性灰度畸变,能适用于多源图像匹配中,但 具有较高计算量.
(2) 第一次发展期(1990—2015 年).主要 以基于特征的匹配方法为主,通过从参考图像和 待匹配图像中提取一些共同特征作为匹配基元, 然后通过建立匹配基元之间的对应关系,求解变换模型参数,完成匹配.特征主要分为面特征、线 特征和点特征.面特征主要是使用区域分割的方 式得到的.线特征主要是提取图像边缘和纹理信 息,包括 LOG 算子[23]、Canny 算 子[24]等.点 特 征是目前研究最多的一种,是根据某种策略在图 像中提取一些具有一定不变性的点,然后使用某 种描述方式,将该点附近的局部信息进行描述,其 中 包 括 Harris 角 点 检 测[25]、SIFT 描 述 子[26]、 SURF描述子[27]等.针对多模态图像许多学者 提出了基于几何结构的特征描述,包括 HAPCG 和 RIFT 等描述子.与基于区域 的 匹 配 方 法 相 比,基于特征的匹配方法并不直接作用于图像灰 度,它表达了更高层的图像信息,这一特性使得基 于特征的匹配方法对图像的灰度变化、图像变形 及遮挡都有较好的适应能力,极大地扩展了图像 匹配技术的适用范围. (3)第二次发展期(2015 年至今).随着深 度学习的发展,众多深度学习网络结构(如卷积神 经网络(CNN)、生成式对抗网络(GAN)等)在图 像处理领域取得了较大的成功[28G30].CNN 中的 卷积层具有强大的特征提取能力,在网络训练的 过程中,通过监督信息和反向传播函数更新网络 层参数,使得 CNN 对非线性畸变和噪声等具有 较好的稳健性.GAN 通过对抗训练的方式来使 得生成网络产生的样本服从真实数据分布,为样 本数据受限下的深度学习异源匹配提供了解决途 径.深度学习为多模态图像匹配的研究提供了更 多发展空间. 目前主流的多模态图像匹配方法主要分为特 征驱动的匹配方法和数据驱动的匹配方法.特征驱动的匹配方法主要靠直觉和研究者的专业知识 驱动,数据驱动的匹配方法主要依靠大量数据来 学习建立及优化匹配模型.与数据驱动的匹配方 法相比,基于特征的匹配方法在性能方面相对较 差,适用于处理训练数据和测试数据为同一场景 的图像,该方法大多针对某一难点或某一应用而 设计,很难设计出普适性很强的描述符,其优点是 不需要数据或者只需少量数据,计算时间较快. 数据驱动的匹配方法性能更高,主要通过学习数 据中的多样性,适用于不同的数据集和应用,但该 方法参数的选择可能需要端到端的梯度下降法进 行训练,需要大量的训练数据来保证其稳健性,计 算时间相对较慢.由于深度学习技术的突出优 势,深度学习和图像匹配的融合已逐步成为主流 方法.
2 特征驱动的匹配方法
特征驱动的匹配方法从原理上大体可分为基 于 区 域 的 匹 配 算 法 和 基 于 显 著 特 征 的 匹 配 算 法[31],也有学 者 为 了 减 小 多 模 态 图 像 匹 配 的 难 度,结合一些先验知识辅助匹配过程[32].
2.1 基于区域的匹配方法
基于区域的匹配方法直接利用预设的模板窗 口上的灰度信息作为基准进行匹配,通过定义一 个相似性度量来计算模板窗口间的相似性,选择 相似性最大的一对模板窗口作为匹配结果.由于 基于区域的匹配是对图像模板区域的整体像素点 信息进行分析处理,一般具有较高的匹配精度,但 由于该图像匹配方法对成像条件、图像形变(特别 是要求图像对具有极高的重叠度)及噪声极其敏 感,同时具有较高的计算复杂度,从而限制了其应 用能力.对基于区域的匹配方法进行细分又包含 基于空间域的方法和基于变换域的方法.
2.2 基于显著特征的匹配算法
基于显著特征的图像匹配方法弥补了基于灰 度特征匹配方法的不足,在对存在仿射变换、投影 变换的图像对之间的匹配也具有很好的效果.同 时,由于基于显著特征的匹配算法不是针对整幅 图像进行匹配,而是在图像中提取出一系列具有代表性的特征,然后将两图像间的特征进行匹配, 这样就使得算法复杂度大大降低,匹配速率较快. 在一些对实时性要求较高的应用中,通常都使用 基于显著特征的图像匹配算法.基于显著特征的 匹配核心结构包括特征检测、特征描述和特征匹 配等方面.
2.3 先验信息辅助匹配
经过多年的研究,众多学者逐渐达成共识:遥 感图像的很多处理(包括匹配、分割、检测、提取 等)需要高层知识的介入才能得到彻底的解决. 受限于人脑和视觉理论研究,多年来遥感图像匹 配一直停留在“图像数据”这个层面.比较经典的 利用知识进行图像匹配的方法是借助先验信息, 利用先验信息来有效抵抗多模态图像匹配中非线 性畸变和几何形变等因素带来的影响,例如成像 参数信息、DEM 数据信息等,利用这些信息去引 导或验证匹配,从而提高匹配的准确性.高精度 POS数据等先验信息通常被作为辅助信息用来 解决视角和尺度变化造成的匹配难题.在特征点 匹配之前对影像进行全局几何纠正,整体上消除 或降低影像几何变形的影响,再采用传统特征描 述和匹配方法进行特征点匹配[70G72].利用地理语义知识来辅助进行图像匹配是另 一种常用 方 法,比 如 利 用 GIS 数 据 中 的 分 类 信 息,或者对图像上的建筑、水体、道路等地方事先 进行语义信息提取.文献[73]在无人机图像与卫 星图像匹配上利用道路信息,解决高空城市场景 匹配定位的问题.通过利用 UGnet网络提取图像 语义信息,结合该信息来提高匹配精度.虽然利 用语义信息能够提升算法稳健性,但同样局限了 算法的应用场景,在语义缺失场景下难以部署.
3 数据驱动的匹配方法
数据驱动的匹配方法就是利用深度学习技术 从大量训练数据中学习构建匹配的模型,许多学 者尝试将其应用于解决多模态匹配难题[74].相 较于特征驱动的方法,数据驱动的方法基于深度 学习对深层特征有着优越的学习和表达能力,在 图像匹配问题上崭露头角并取得了初步成效[75], 能够直接从包含相同或相似结构内容的图像对中 学习到像素级别的匹配关系,并且能够更好地适 应非线性辐射和噪声等因素带来的影响.基于数 据驱动的方法可分为两类:一类为通过构建神经 网络结构替换部分匹配环节,可称为单环节深度 网络;另一类为构建端到端的神经网络结构完全 替换图像匹配的整个过程,称为端到端深度网络. 端到端的网络同时也可以用于图像的预处理过 程,就是通过图像合成、风格迁移等技术,根据不 同模态图像的成像特性,对不同模态的图像进行 风格转化,用于扩充多模态图像数据集或直接转 换成同模态图像形式进行匹配[7,15].
(1) 单环节深度网络.
单环节深度神经网络 仅替换部分匹配环节,该种方式往往更加灵活,可 根据不同的需求结合其他各具优势的结构构建完 整的匹配模型.许多学者通过深度学习从图像中 检测更精确可靠的特征点集、学习每个特征点的 主要方向或主要尺度及其更具有区分性和可匹配 能力的特征描述子.D2net [76]创新性地构建了检 测特征和特征描述为一体的网络结构,通过使用 CNN 计算特征图,然后通过将这些特征图进行切 片 的 方 式 来 计 算 描 述 子,并 且 提 取 关 键 点. CMMGNet [77]通过对 D2net改进并用于多模态图 像匹配中,该方法使用动态自适应欧氏距离阈值 和 RANSAC算法共同约束来剔除错误匹配点, 在异源遥感图像的匹配上展示出优良的匹配效 果.一种结合深度学习和传统局部特征由粗到精 的匹配方法[78]曾被应用于多模态图像匹配中,该 方法首先通过 CNN 提取深度特征进行粗匹配, 再通过结合更精确的局部特征来调整粗匹配结 果,从而产生更稳定的匹配结果.有学者设计了 一种基 于 Siamese 的 多 模 态 图 像 特 征 提 取 网 络[79],旨在提取多模态图像之间的共同特征,该 网络通过去除池化层和从Siamese网络中提取特 征层进行优化,以保持特征信息的完整性和位置 准确性,从而更加有效提取多模态图像之间的共 同特征.也有学者通过采用最大正样本和负样本 特征距离作为损失函数,基于 Siamese网络结构 来训练一种全卷积神经网络学习多模态图像块的 描述符表示[80].该方法在多模态匹配上展示出 不错的匹配效果.通过深度学习来对待匹配图像 进行预校正也是个不错的思路,一种基于深度学 习和高斯特征的旋转不变多模态图像匹配方法通 过训练一种名为 RotNET 的神经网络来预测图 像间的旋转关系,再通过构建面向梯度的高斯金 字塔特征(GPOG)来匹配两幅图像[81].该方法 表现出对图像旋转和非线性辐射差异有着较好的 稳健性.还有些学者利用深度学习学习描述子之 间更可靠的相似性度量准则等[82],代表性的方法 如SuperGlue [83]构建了一个进行特征匹配以及粗 差剔除的网络.SuperGlue通过将特征匹配问题视为求解可微分最优化转移问题,从而构建循环 神经网络 GNN 来解决该问题.而且 SuperGlue 根据注意力机制提出了一种灵活的内容聚合机 制,这使它能够同时感知潜在的3D 场景并进行 特征匹配.这类方法通过构建深度神经网络来学 习相似性测度匹配、粗差剔除,能够灵活地与不同 匹配方法结合,从而达到对不同匹配方法改进的 效果. 这些方法基于深度学习强大的深度特征提取 能力和高维特征表征能力,通过训练单独的网络 来替代多模态图像匹配的某一环节,与其他方法 结合构建整体的多模态图像匹配模型,具有较大 的使用灵活度.
(2) 端到端深度网络.
基于深度学习直接设 计一个端到端的匹配网络,如设计一种全自动多 尺度多模态图像匹配框架[84],该框架由3个神经 网络结构组成,分别对应着特征空间提取、基于特 征空间相关函数的匹配和离群点剔除,对于光学 和 SAR 图 像 匹 配 具 有 较 好 的 匹 配 效 果. LoFTR [85]在粗粒度上建立图像特征的检测、描述 和匹配,然后在精粒度别上细化亚像素级别的密 集匹配,且借鉴 Transformer使用了自注意层和 互注意层来获得两幅图像的特征描述符.端到端 的网络结构能够同时学习特征检测、特征描述符、 相似性测度和粗差剔除,在训练时通过信息反馈 能够使特征匹配全流程最优化,但单独使用这类 方法学习到的特征描述符时难以保证匹配效果. 通过风格迁移的方式将不同模态的图像转化 为统一模态的图像也是一种解决多模态图像匹配 难题的有效途径.深度学习中的生成对抗网络 (generativeadversarialnetwork,GAN)通过对抗 训练的方式来使得生成网络产生的样本服从真实 数据分布,为样本数据受限下的深度学习异源匹 配提供了解决途径,可充分利用深度学习强大的 非线性表征能力实现异源影像匹配.CGAN [86] 通 过 融 合 残 差 网 络 (Resnet)和 稠 密 网 络 (DenseNet)构建一种并行生成器模型,有效融合 了各分支网络结构的优点,在红外—可见光图像 转换中展示出优良效果.SKGGAN [87]则以动态 感受野获取多尺度信息的生成结构提高了生成图 像的质 量.KCGGGAN [88]通 过 使 用 kGmeans分 割作为图像生成器的输入之一,以此通过约束空 间信息合成来提高生成图像的质量,在SAR和光 学图像匹配上得到很好应用. 基于数据驱动的多模态图像匹配方法利用深 度学习技术从数据中获取高层的语义信息进行匹 配,有着很强的泛化性,更接近人类视觉先观察学 习后了解掌握的原理,能有效地处理较大的辐射 和几何差异,且有着较好的适应性,但同时也会对 设备以及多模态图像训练数据集有着更高的需 求,相 比 于 特 征 驱 动 的 方 法 处 理 流 程 更 加 复杂[89].
4 总结与展望
图像匹配问题由来已久,学者们根据实际单 方面需求在理论上进行突破使得现有的方法具有 一定的实际应用能力.从当前图像匹配的研究现 状来说,可选的图像匹配方法种类非常多,不同方 法适合不同的情况.笔者对各类算法进行简要总 结,见表1.