「多模态遥感图像匹配方法」最新研究综述

2023 年 4 月 10 日 专知

遥感图像匹配是遥感图像处理的关键基础,一直是国内外学者研究的热点.由于多模态图像具有辐射差异、几何差异、尺度差异、视角差异、维度差异等特性,目前尚未出现一种普适性强的通用匹配方法.随着遥感、人工智能、大数据等技术的不断发展和应用领域的持续拓展,图像匹配技术体系也在不断地发展和演化.本文在系统梳理图像匹配技术发展历程的基础上,对多模态遥感图像匹配分类体系进行了归纳总结,从特征驱动和数据驱动两方面论述了多模态图像匹配技术研究的最新进展,并指出其面临的核心困难及未来发展趋势,以期推动多模态图像匹配研究更加深入发展.

https://www.proquest.com/docview/2762943583?pq-origsite=gscholar&fromopenview=true

0. 引言

遥感图像匹配是遥感图像处理中的基础任务,是指通过空间变换将一幅图像映射至不同时相、不同角度、不同光照等条件下获取的同一场景的另一幅或多幅图像中,在该两幅或多幅图像之间建立空间对应关系的过程[１Ｇ２].遥感图像匹配作为遥感图像拼接、融合、变化检测和目标定位等视觉处理与理解任务的核心基础,在自然灾害应急、损毁评估等领域发挥着重要作用[３].随着遥感技术的高速发展,可见光、多/高光谱、红外、合成孔径雷达(SAR)、激光雷达等覆盖天空地不同平台的传感器不断涌现,为人类对地观测提供了多种数据源[４Ｇ５].如何有效集成多传感器、多分辨率和多时相的遥感数据,对其进行深入处理分析, 已成为现阶段遥感领域研究的热点与重点,而多模态遥感图像匹配则是其中迫切需要解决的核心问题之一.

多模态遥感图像匹配通常指不同传感器(如可见光和SAR传感器,可见光和红外传感器等)、不同成像平台(如卫星平台与航空平台、航空平台与地面车载平台等)之间的图像匹配,图像之间存在典型的“五差异”(成像特性差异、几何差异、尺度差异、视角差异、维度差异等的一种或几种)和 “三不同”(不同环境、不同天气、不同天候等),给高精度匹配带来了极大的困难[６Ｇ８].其难点主要表现为:①图像匹配的核心是要找到同名特征,但由于多模态图像特征异构,如何准确定义和描述同名特征,如何对同名特征进行表征是个难题; ②多模态图像之间的同名特征很难提取,即使在不同视角和维度下提取到同名特征,也存在不完整、难对应的情况;③在特征表征和描述不完备情况下,很难定义有效的相似性测度来度量两个特征集间的相似性.

成像传感器的不断涌现和应用成像方式的各种变化给多模态遥感图像匹配带来持续不断的挑战,对其研究和应用是学术界和工业界持续关注的焦点之一.国内外众多研究机构(如武汉大学、电子科技大学、西北工业大学、西南交通大学、中国科学院、旷视研究院、洛桑联邦理工学院(EPFL)等)和学者提出了大量的多模态图像匹配方法[９Ｇ１２].关于图像匹配方法的大赛也如火如荼,如 CVPR２０２１Image Matching、２０２０年“智箭􀅰火眼”人工智能挑战赛等,这些比赛均受到了众多关注.从最初互信息(mutualinformation, MI)和相位相关(phasecorrelation,PC)方法被适用于多源遥感图像匹配[１３Ｇ１４],到许多学者通过设计改造特定的手工特征描述用于多模态图像匹配,再到深度学习技术被用来解决多模态图像匹配难题,多模态图像匹配技术在近几十年得到了长足的发展.目前的一些综述文献对图像匹配进行了分类整理[１５],这些研究普遍认为图像匹配是一个复杂的综合处理过程,仅靠单一图像匹配算法无法解决所有的图像匹配问题[１６Ｇ１８],但是并未对多模态图像匹配理论和方法进行系统分析,也没有提出较为系统的解决方案.总体来说,尽管多模态图像匹配方法和应用都取得了很大进展, 但是目前尚未出现一种普适性强、适用于所有情况的方法.

１多模态图像匹配发展现状

多模态图像匹配方法根据数据源角度可以分为:可见光与 SAR 图像匹配、可见光与红外图像匹配、红外图像与 SAR 图像匹配、可见光与多光谱图像匹配、遥感图像与 GIS矢量匹配、遥感图像与视频数据匹配、遥感图像与三维点云匹配. 根据传感器平台可以分为:卫星影像与航空影像匹配、航空影像与地面照片匹配、卫星影像与地面照片匹配[１９].一般认为,多模态图像匹配方法是在传统的图像匹配方法基础上发展起来的,可划分为基于特征驱动的匹配方法和基于数据驱动的匹配方法.以时间脉络为序,多模态图像匹配方法主要包括以下３个典型的发展阶段(图２):

(１) 萌芽期(１９７０—１９９０年).最初的图像匹配是利用相关系数实现,通过计算图像中选定的模板区域的相似性,从中构建图像之间的匹配关系.把图像信号最为相似的区域称为同名区域,同名区域的中心点称为同名点,这就是最初相关系数图像匹配基本原理,也称之为模板匹配 (templatematching),现有图像匹配方法基于模板匹配雏形发展而来.在该类匹配算法中常用的相似性度量函数包括差方和(SSD)、归一化互相关(NCC)、互信息(MI)和相位相关(PC)等[２０Ｇ２２]. 最初学者们发现,一般 SSD、NCC 和 PC 受非线性灰度畸变的影响很大,难以应用于多模态图像匹配.互信息(MI)被证明在一定程度上能够抵抗非线性灰度畸变,能适用于多源图像匹配中,但具有较高计算量.

(２) 第一次发展期(１９９０—２０１５年).主要以基于特征的匹配方法为主,通过从参考图像和待匹配图像中提取一些共同特征作为匹配基元, 然后通过建立匹配基元之间的对应关系,求解变换模型参数,完成匹配.特征主要分为面特征、线特征和点特征.面特征主要是使用区域分割的方式得到的.线特征主要是提取图像边缘和纹理信息,包括 LOG 算子[２３]、Canny 算子[２４]等.点特征是目前研究最多的一种,是根据某种策略在图像中提取一些具有一定不变性的点,然后使用某种描述方式,将该点附近的局部信息进行描述,其中包括 Harris 角点检测[２５]、SIFT 描述子[２６]、 SURF描述子[２７]等.针对多模态图像许多学者提出了基于几何结构的特征描述,包括 HAPCG 和 RIFT 等描述子.与基于区域的匹配方法相比,基于特征的匹配方法并不直接作用于图像灰度,它表达了更高层的图像信息,这一特性使得基于特征的匹配方法对图像的灰度变化、图像变形及遮挡都有较好的适应能力,极大地扩展了图像匹配技术的适用范围. (３)第二次发展期(２０１５年至今).随着深度学习的发展,众多深度学习网络结构(如卷积神经网络(CNN)、生成式对抗网络(GAN)等)在图像处理领域取得了较大的成功[２８Ｇ３０].CNN 中的卷积层具有强大的特征提取能力,在网络训练的过程中,通过监督信息和反向传播函数更新网络层参数,使得 CNN 对非线性畸变和噪声等具有较好的稳健性.GAN 通过对抗训练的方式来使得生成网络产生的样本服从真实数据分布,为样本数据受限下的深度学习异源匹配提供了解决途径.深度学习为多模态图像匹配的研究提供了更多发展空间.

目前主流的多模态图像匹配方法主要分为特征驱动的匹配方法和数据驱动的匹配方法 .特征驱动的匹配方法主要靠直觉和研究者的专业知识驱动,数据驱动的匹配方法主要依靠大量数据来学习建立及优化匹配模型.与数据驱动的匹配方法相比,基于特征的匹配方法在性能方面相对较差,适用于处理训练数据和测试数据为同一场景的图像,该方法大多针对某一难点或某一应用而设计,很难设计出普适性很强的描述符,其优点是不需要数据或者只需少量数据,计算时间较快. 数据驱动的匹配方法性能更高,主要通过学习数据中的多样性,适用于不同的数据集和应用,但该方法参数的选择可能需要端到端的梯度下降法进行训练,需要大量的训练数据来保证其稳健性,计算时间相对较慢.由于深度学习技术的突出优势,深度学习和图像匹配的融合已逐步成为主流方法.

２特征驱动的匹配方法

特征驱动的匹配方法从原理上大体可分为基于区域的匹配算法和基于显著特征的匹配算法[３１],也有学者为了减小多模态图像匹配的难度,结合一些先验知识辅助匹配过程[３２].

2.1 基于区域的匹配方法

基于区域的匹配方法直接利用预设的模板窗口上的灰度信息作为基准进行匹配,通过定义一个相似性度量来计算模板窗口间的相似性,选择相似性最大的一对模板窗口作为匹配结果.由于基于区域的匹配是对图像模板区域的整体像素点信息进行分析处理,一般具有较高的匹配精度,但由于该图像匹配方法对成像条件、图像形变(特别是要求图像对具有极高的重叠度)及噪声极其敏感,同时具有较高的计算复杂度,从而限制了其应用能力.对基于区域的匹配方法进行细分又包含基于空间域的方法和基于变换域的方法.

2.2 基于显著特征的匹配算法

基于显著特征的图像匹配方法弥补了基于灰度特征匹配方法的不足,在对存在仿射变换、投影变换的图像对之间的匹配也具有很好的效果.同时,由于基于显著特征的匹配算法不是针对整幅图像进行匹配,而是在图像中提取出一系列具有代表性的特征,然后将两图像间的特征进行匹配, 这样就使得算法复杂度大大降低,匹配速率较快. 在一些对实时性要求较高的应用中,通常都使用基于显著特征的图像匹配算法.基于显著特征的匹配核心结构包括特征检测、特征描述和特征匹配等方面.

2.3 先验信息辅助匹配

经过多年的研究,众多学者逐渐达成共识:遥感图像的很多处理(包括匹配、分割、检测、提取等)需要高层知识的介入才能得到彻底的解决. 受限于人脑和视觉理论研究,多年来遥感图像匹配一直停留在“图像数据”这个层面.比较经典的利用知识进行图像匹配的方法是借助先验信息, 利用先验信息来有效抵抗多模态图像匹配中非线性畸变和几何形变等因素带来的影响,例如成像参数信息、DEM 数据信息等,利用这些信息去引导或验证匹配,从而提高匹配的准确性.高精度 POS数据等先验信息通常被作为辅助信息用来解决视角和尺度变化造成的匹配难题.在特征点匹配之前对影像进行全局几何纠正,整体上消除或降低影像几何变形的影响,再采用传统特征描述和匹配方法进行特征点匹配[７０Ｇ７２].

利用地理语义知识来辅助进行图像匹配是另一种常用方法,比如利用 GIS 数据中的分类信息,或者对图像上的建筑、水体、道路等地方事先进行语义信息提取.文献[７３]在无人机图像与卫星图像匹配上利用道路信息,解决高空城市场景匹配定位的问题.通过利用 UＧnet网络提取图像语义信息,结合该信息来提高匹配精度.虽然利用语义信息能够提升算法稳健性,但同样局限了算法的应用场景,在语义缺失场景下难以部署.

３数据驱动的匹配方法

数据驱动的匹配方法就是利用深度学习技术从大量训练数据中学习构建匹配的模型,许多学者尝试将其应用于解决多模态匹配难题[７４].相较于特征驱动的方法,数据驱动的方法基于深度学习对深层特征有着优越的学习和表达能力,在图像匹配问题上崭露头角并取得了初步成效[７５], 能够直接从包含相同或相似结构内容的图像对中学习到像素级别的匹配关系,并且能够更好地适应非线性辐射和噪声等因素带来的影响.基于数据驱动的方法可分为两类:一类为通过构建神经网络结构替换部分匹配环节,可称为单环节深度网络;另一类为构建端到端的神经网络结构完全替换图像匹配的整个过程,称为端到端深度网络. 端到端的网络同时也可以用于图像的预处理过程,就是通过图像合成、风格迁移等技术,根据不同模态图像的成像特性,对不同模态的图像进行风格转化,用于扩充多模态图像数据集或直接转换成同模态图像形式进行匹配[７,１５].

4 总结与展望

图像匹配问题由来已久,学者们根据实际单方面需求在理论上进行突破使得现有的方法具有一定的实际应用能力.从当前图像匹配的研究现状来说,可选的图像匹配方法种类非常多,不同方法适合不同的情况.笔者对各类算法进行简要总结,见表１.