「多模态遥感图像匹配方法」最新研究综述

遥感图像匹配是遥感图像处理的关键基础,一直是国内外学者研究的热点.由于多模态图像具有辐射差异、几何差异、尺度差异、视角差异、维度差异等特性,目前尚未出现一种普适性强的通用匹配方法.随着遥感、人工智能、大数据等技术的不断发展和应用领域的持续拓展,图像匹配技术体系也在不断地发展和演化.本文在系统梳理图像匹配技术发展历程的基础上,对多模态遥感图像匹配分类体系进行了归纳总结,从特征驱动和数据驱动两方面论述了多模态图像匹配技术研究的最新进展,并指出其面临的核心困难及未来发展趋势,以期推动多模态图像匹配研究更加深入发展.

https://www.proquest.com/docview/2762943583?pq-origsite=gscholar&fromopenview=true

0. 引言

遥感图像匹配是遥感图像处理中的基础任务,是指通过空间变换将一幅图像映射至不同时相、不同角度、不同光照等条件下获取的同一场景的另一幅或多幅图像中,在该两幅或多幅图像之间建立空间对应关系的过程[１Ｇ２].遥感图像匹配作为遥感图像拼接、融合、变化检测和目标定位等视觉处理与理解任务的核心基础,在自然灾害应急、损毁评估等领域发挥着重要作用[３].随着遥感技术的高速发展,可见光、多/高光谱、红外、合成孔径雷达(SAR)、激光雷达等覆盖天空地不同平台的传感器不断涌现,为人类对地观测提供了多种数据源[４Ｇ５].如何有效集成多传感器、多分辨率和多时相的遥感数据,对其进行深入处理分析, 已成为现阶段遥感领域研究的热点与重点,而多模态遥感图像匹配则是其中迫切需要解决的核心问题之一.多模态遥感图像匹配通常指不同传感器(如可见光和SAR传感器,可见光和红外传感器等)、不同成像平台(如卫星平台与航空平台、航空平台与地面车载平台等)之间的图像匹配,图像之间存在典型的“五差异”(成像特性差异、几何差异、尺度差异、视角差异、维度差异等的一种或几种)和 “三不同”(不同环境、不同天气、不同天候等),给高精度匹配带来了极大的困难[６Ｇ８].其难点主要表现为:①图像匹配的核心是要找到同名特征,但由于多模态图像特征异构,如何准确定义和描述同名特征,如何对同名特征进行表征是个难题; ②多模态图像之间的同名特征很难提取,即使在不同视角和维度下提取到同名特征,也存在不完整、难对应的情况;③在特征表征和描述不完备情况下,很难定义有效的相似性测度来度量两个特征集间的相似性.

成像传感器的不断涌现和应用成像方式的各种变化给多模态遥感图像匹配带来持续不断的挑战,对其研究和应用是学术界和工业界持续关注的焦点之一.国内外众多研究机构(如武汉大学、电子科技大学、西北工业大学、西南交通大学、中国科学院、旷视研究院、洛桑联邦理工学院(EPFL)等)和学者提出了大量的多模态图像匹配方法[９Ｇ１２].关于图像匹配方法的大赛也如火如荼,如 CVPR２０２１Image Matching、２０２０年“智箭􀅰火眼”人工智能挑战赛等,这些比赛均受到了众多关注.从最初互信息(mutualinformation, MI)和相位相关(phasecorrelation,PC)方法被适用于多源遥感图像匹配[１３Ｇ１４],到许多学者通过设计改造特定的手工特征描述用于多模态图像匹配,再到深度学习技术被用来解决多模态图像匹配难题,多模态图像匹配技术在近几十年得到了长足的发展.目前的一些综述文献对图像匹配进行了分类整理[１５],这些研究普遍认为图像匹配是一个复杂的综合处理过程,仅靠单一图像匹配算法无法解决所有的图像匹配问题[１６Ｇ１８],但是并未对多模态图像匹配理论和方法进行系统分析,也没有提出较为系统的解决方案.总体来说,尽管多模态图像匹配方法和应用都取得了很大进展, 但是目前尚未出现一种普适性强、适用于所有情况的方法.

１多模态图像匹配发展现状

多模态图像匹配方法根据数据源角度可以分为:可见光与 SAR 图像匹配、可见光与红外图像匹配、红外图像与 SAR 图像匹配、可见光与多光谱图像匹配、遥感图像与 GIS矢量匹配、遥感图像与视频数据匹配、遥感图像与三维点云匹配. 根据传感器平台可以分为:卫星影像与航空影像匹配、航空影像与地面照片匹配、卫星影像与地面照片匹配[１９].一般认为,多模态图像匹配方法是在传统的图像匹配方法基础上发展起来的,可划分为基于特征驱动的匹配方法和基于数据驱动的匹配方法.以时间脉络为序,多模态图像匹配方法主要包括以下３个典型的发展阶段(图２): (１) 萌芽期(１９７０—１９９０年).最初的图像匹配是利用相关系数实现,通过计算图像中选定的模板区域的相似性,从中构建图像之间的匹配关系.把图像信号最为相似的区域称为同名区域,同名区域的中心点称为同名点,这就是最初相关系数图像匹配基本原理,也称之为模板匹配 (templatematching),现有图像匹配方法基于模板匹配雏形发展而来.在该类匹配算法中常用的相似性度量函数包括差方和(SSD)、归一化互相关(NCC)、互信息(MI)和相位相关(PC)等[２０Ｇ２２]. 最初学者们发现,一般 SSD、NCC 和 PC 受非线性灰度畸变的影响很大,难以应用于多模态图像匹配.互信息(MI)被证明在一定程度上能够抵抗非线性灰度畸变,能适用于多源图像匹配中,但具有较高计算量.

(２) 第一次发展期(１９９０—２０１５年).主要以基于特征的匹配方法为主,通过从参考图像和待匹配图像中提取一些共同特征作为匹配基元, 然后通过建立匹配基元之间的对应关系,求解变换模型参数,完成匹配.特征主要分为面特征、线特征和点特征.面特征主要是使用区域分割的方式得到的.线特征主要是提取图像边缘和纹理信息,包括 LOG 算子[２３]、Canny 算子[２４]等.点特征是目前研究最多的一种,是根据某种策略在图像中提取一些具有一定不变性的点,然后使用某种描述方式,将该点附近的局部信息进行描述,其中包括 Harris 角点检测[２５]、SIFT 描述子[２６]、 SURF描述子[２７]等.针对多模态图像许多学者提出了基于几何结构的特征描述,包括 HAPCG 和 RIFT 等描述子.与基于区域的匹配方法相比,基于特征的匹配方法并不直接作用于图像灰度,它表达了更高层的图像信息,这一特性使得基于特征的匹配方法对图像的灰度变化、图像变形及遮挡都有较好的适应能力,极大地扩展了图像匹配技术的适用范围. (３)第二次发展期(２０１５年至今).随着深度学习的发展,众多深度学习网络结构(如卷积神经网络(CNN)、生成式对抗网络(GAN)等)在图像处理领域取得了较大的成功[２８Ｇ３０].CNN 中的卷积层具有强大的特征提取能力,在网络训练的过程中,通过监督信息和反向传播函数更新网络层参数,使得 CNN 对非线性畸变和噪声等具有较好的稳健性.GAN 通过对抗训练的方式来使得生成网络产生的样本服从真实数据分布,为样本数据受限下的深度学习异源匹配提供了解决途径.深度学习为多模态图像匹配的研究提供了更多发展空间. 目前主流的多模态图像匹配方法主要分为特征驱动的匹配方法和数据驱动的匹配方法.特征驱动的匹配方法主要靠直觉和研究者的专业知识驱动,数据驱动的匹配方法主要依靠大量数据来学习建立及优化匹配模型.与数据驱动的匹配方法相比,基于特征的匹配方法在性能方面相对较差,适用于处理训练数据和测试数据为同一场景的图像,该方法大多针对某一难点或某一应用而设计,很难设计出普适性很强的描述符,其优点是不需要数据或者只需少量数据,计算时间较快. 数据驱动的匹配方法性能更高,主要通过学习数据中的多样性,适用于不同的数据集和应用,但该方法参数的选择可能需要端到端的梯度下降法进行训练,需要大量的训练数据来保证其稳健性,计算时间相对较慢.由于深度学习技术的突出优势,深度学习和图像匹配的融合已逐步成为主流方法.

２特征驱动的匹配方法

特征驱动的匹配方法从原理上大体可分为基于区域的匹配算法和基于显著特征的匹配算法[３１],也有学者为了减小多模态图像匹配的难度,结合一些先验知识辅助匹配过程[３２].

2.1 基于区域的匹配方法

基于区域的匹配方法直接利用预设的模板窗口上的灰度信息作为基准进行匹配,通过定义一个相似性度量来计算模板窗口间的相似性,选择相似性最大的一对模板窗口作为匹配结果.由于基于区域的匹配是对图像模板区域的整体像素点信息进行分析处理,一般具有较高的匹配精度,但由于该图像匹配方法对成像条件、图像形变(特别是要求图像对具有极高的重叠度)及噪声极其敏感,同时具有较高的计算复杂度,从而限制了其应用能力.对基于区域的匹配方法进行细分又包含基于空间域的方法和基于变换域的方法.

2.2 基于显著特征的匹配算法

基于显著特征的图像匹配方法弥补了基于灰度特征匹配方法的不足,在对存在仿射变换、投影变换的图像对之间的匹配也具有很好的效果.同时,由于基于显著特征的匹配算法不是针对整幅图像进行匹配,而是在图像中提取出一系列具有代表性的特征,然后将两图像间的特征进行匹配, 这样就使得算法复杂度大大降低,匹配速率较快. 在一些对实时性要求较高的应用中,通常都使用基于显著特征的图像匹配算法.基于显著特征的匹配核心结构包括特征检测、特征描述和特征匹配等方面.

2.3 先验信息辅助匹配

经过多年的研究,众多学者逐渐达成共识:遥感图像的很多处理(包括匹配、分割、检测、提取等)需要高层知识的介入才能得到彻底的解决. 受限于人脑和视觉理论研究,多年来遥感图像匹配一直停留在“图像数据”这个层面.比较经典的利用知识进行图像匹配的方法是借助先验信息, 利用先验信息来有效抵抗多模态图像匹配中非线性畸变和几何形变等因素带来的影响,例如成像参数信息、DEM 数据信息等,利用这些信息去引导或验证匹配,从而提高匹配的准确性.高精度 POS数据等先验信息通常被作为辅助信息用来解决视角和尺度变化造成的匹配难题.在特征点匹配之前对影像进行全局几何纠正,整体上消除或降低影像几何变形的影响,再采用传统特征描述和匹配方法进行特征点匹配[７０Ｇ７２].利用地理语义知识来辅助进行图像匹配是另一种常用方法,比如利用 GIS 数据中的分类信息,或者对图像上的建筑、水体、道路等地方事先进行语义信息提取.文献[７３]在无人机图像与卫星图像匹配上利用道路信息,解决高空城市场景匹配定位的问题.通过利用 UＧnet网络提取图像语义信息,结合该信息来提高匹配精度.虽然利用语义信息能够提升算法稳健性,但同样局限了算法的应用场景,在语义缺失场景下难以部署.

３数据驱动的匹配方法

数据驱动的匹配方法就是利用深度学习技术从大量训练数据中学习构建匹配的模型,许多学者尝试将其应用于解决多模态匹配难题[７４].相较于特征驱动的方法,数据驱动的方法基于深度学习对深层特征有着优越的学习和表达能力,在图像匹配问题上崭露头角并取得了初步成效[７５], 能够直接从包含相同或相似结构内容的图像对中学习到像素级别的匹配关系,并且能够更好地适应非线性辐射和噪声等因素带来的影响.基于数据驱动的方法可分为两类:一类为通过构建神经网络结构替换部分匹配环节,可称为单环节深度网络;另一类为构建端到端的神经网络结构完全替换图像匹配的整个过程,称为端到端深度网络. 端到端的网络同时也可以用于图像的预处理过程,就是通过图像合成、风格迁移等技术,根据不同模态图像的成像特性,对不同模态的图像进行风格转化,用于扩充多模态图像数据集或直接转换成同模态图像形式进行匹配[７,１５].

(１) 单环节深度网络.

单环节深度神经网络仅替换部分匹配环节,该种方式往往更加灵活,可根据不同的需求结合其他各具优势的结构构建完整的匹配模型.许多学者通过深度学习从图像中检测更精确可靠的特征点集、学习每个特征点的主要方向或主要尺度及其更具有区分性和可匹配能力的特征描述子.D２net [７６]创新性地构建了检测特征和特征描述为一体的网络结构,通过使用 CNN 计算特征图,然后通过将这些特征图进行切片的方式来计算描述子,并且提取关键点. CMMＧNet [７７]通过对 D２net改进并用于多模态图像匹配中,该方法使用动态自适应欧氏距离阈值和 RANSAC算法共同约束来剔除错误匹配点, 在异源遥感图像的匹配上展示出优良的匹配效果.一种结合深度学习和传统局部特征由粗到精的匹配方法[７８]曾被应用于多模态图像匹配中,该方法首先通过 CNN 提取深度特征进行粗匹配, 再通过结合更精确的局部特征来调整粗匹配结果,从而产生更稳定的匹配结果.有学者设计了一种基于 Siamese 的多模态图像特征提取网络[７９],旨在提取多模态图像之间的共同特征,该网络通过去除池化层和从Siamese网络中提取特征层进行优化,以保持特征信息的完整性和位置准确性,从而更加有效提取多模态图像之间的共同特征.也有学者通过采用最大正样本和负样本特征距离作为损失函数,基于 Siamese网络结构来训练一种全卷积神经网络学习多模态图像块的描述符表示[８０].该方法在多模态匹配上展示出不错的匹配效果.通过深度学习来对待匹配图像进行预校正也是个不错的思路,一种基于深度学习和高斯特征的旋转不变多模态图像匹配方法通过训练一种名为 RotNET 的神经网络来预测图像间的旋转关系,再通过构建面向梯度的高斯金字塔特征(GPOG)来匹配两幅图像[８１].该方法表现出对图像旋转和非线性辐射差异有着较好的稳健性.还有些学者利用深度学习学习描述子之间更可靠的相似性度量准则等[８２],代表性的方法如SuperGlue [８３]构建了一个进行特征匹配以及粗差剔除的网络.SuperGlue通过将特征匹配问题视为求解可微分最优化转移问题,从而构建循环神经网络 GNN 来解决该问题.而且 SuperGlue 根据注意力机制提出了一种灵活的内容聚合机制,这使它能够同时感知潜在的３D 场景并进行特征匹配.这类方法通过构建深度神经网络来学习相似性测度匹配、粗差剔除,能够灵活地与不同匹配方法结合,从而达到对不同匹配方法改进的效果. 这些方法基于深度学习强大的深度特征提取能力和高维特征表征能力,通过训练单独的网络来替代多模态图像匹配的某一环节,与其他方法结合构建整体的多模态图像匹配模型,具有较大的使用灵活度.

(２) 端到端深度网络.

基于深度学习直接设计一个端到端的匹配网络,如设计一种全自动多尺度多模态图像匹配框架[８４],该框架由３个神经网络结构组成,分别对应着特征空间提取、基于特征空间相关函数的匹配和离群点剔除,对于光学和 SAR 图像匹配具有较好的匹配效果. LoFTR [８５]在粗粒度上建立图像特征的检测、描述和匹配,然后在精粒度别上细化亚像素级别的密集匹配,且借鉴 Transformer使用了自注意层和互注意层来获得两幅图像的特征描述符.端到端的网络结构能够同时学习特征检测、特征描述符、相似性测度和粗差剔除,在训练时通过信息反馈能够使特征匹配全流程最优化,但单独使用这类方法学习到的特征描述符时难以保证匹配效果. 通过风格迁移的方式将不同模态的图像转化为统一模态的图像也是一种解决多模态图像匹配难题的有效途径.深度学习中的生成对抗网络 (generativeadversarialnetwork,GAN)通过对抗训练的方式来使得生成网络产生的样本服从真实数据分布,为样本数据受限下的深度学习异源匹配提供了解决途径,可充分利用深度学习强大的非线性表征能力实现异源影像匹配.CGAN [８６] 通过融合残差网络 (Resnet)和稠密网络 (DenseNet)构建一种并行生成器模型,有效融合了各分支网络结构的优点,在红外—可见光图像转换中展示出优良效果.SKＧGAN [８７]则以动态感受野获取多尺度信息的生成结构提高了生成图像的质量.KCGＧGAN [８８]通过使用 kＧmeans分割作为图像生成器的输入之一,以此通过约束空间信息合成来提高生成图像的质量,在SAR和光学图像匹配上得到很好应用. 基于数据驱动的多模态图像匹配方法利用深度学习技术从数据中获取高层的语义信息进行匹配,有着很强的泛化性,更接近人类视觉先观察学习后了解掌握的原理,能有效地处理较大的辐射和几何差异,且有着较好的适应性,但同时也会对设备以及多模态图像训练数据集有着更高的需求,相比于特征驱动的方法处理流程更加复杂[８９].

4 总结与展望

图像匹配问题由来已久,学者们根据实际单方面需求在理论上进行突破使得现有的方法具有一定的实际应用能力.从当前图像匹配的研究现状来说,可选的图像匹配方法种类非常多,不同方法适合不同的情况.笔者对各类算法进行简要总结,见表１.