遥感跨模态智能解译：模型、数据与应用

以深度学习为代表的人工智能技术已被广泛应用于遥感图像解译中. 相比自然场景图像, 遥感图像具有载荷类型多、成像机理差异大等特点, 使得现有面向单传感器、纯数据驱动的智能解译方法应用到不同模态数据时, 性能上限难以突破. 尤其在面向多传感获取的、大范围的、目标种类较多的复杂应用场景时, 实际性能受限更为严重. 本文主要对遥感智能解译结合多模态数据和多任务学习的研究工作进行综述, 重点从基本概念、研究方法和应用场景三个方面进行展开. 并且介绍了基于分域提取和跨域融合理念设计的模型架构, 通过从海量多模态数据中提取通用特征, 实现单个基础模型完成多类下游任务的泛化解译, 在不同模态解译任务中表现优异, 并实际应用推广. 最后, 对遥感多模态多任务学习未来技术发展方向进行展望.

**1 引言 **

卫星对地观测系统具有全球覆盖、全天候、全谱段探测能力, 在提升遥感信息获取能力, 及时把握全球经济、资源、环境、社会发展等方面发挥了重要作用 [1]. 近年来, 全球遥感卫星发射数量整体呈增长趋势, 卫星数据源的极大丰富和新型载荷谱系的不断拓展使得每天可获取全球上千万平方公里数据. 然而, 现有的遥感解译方法主要依靠人工目视判读和半自动化方式进行, 通过积累的专家知识进行判读, 具有准确率高、可靠性强等特点, 但会导致时效性差、数据利用率低等问题, 无法满足从海量数据中进行遥感数据快速、准确解译的发展需求. 以深度学习为代表的人工智能方法显著提升了遥感数据解译的工作效率 [2∼4], 目前大多采用深度神经网络对输入的遥感数据进行端到端的特征提取, 能够快速、准确地实现地物分类、变化检测、三维重建等多种解译任务. 然而, 现有的面向单传感器、纯数据驱动的方法高度依赖模型的构建方式, 计算资源能耗大, 且自主学习、自适应能力弱, 在应用于目标种类较多的复杂场景时, 实际性能严重受限。相比单传感器, 多分辨率、多传感器、多时相的遥感数据可为地物提供“时-空-谱”的不同描述信息, 进而为各类应用任务提供更丰富的信息 [5∼7], 有助于突破单模态数据解译的性能瓶颈. 此外, 为满足遥感大范围目标要素提取的应用需求, 实现上千种不同要素的快速并行提取, 开展多传感器的多任务处理分析具有重要研究意义. 因此, 面向大规模多传感器数据, 使模型具有多任务泛化能力, 并能够高效高精度推理和持续集成扩展, 是当前遥感智能解译领域重要的发展方向, 通过预训练基础模型 [9] 结合下游任务开展应用的模式是一种行之有效的解决方案. 基础模型通过从海量数据中学习数据的通用特征, 再根据下游任务进行增量训练, 有利于获得良好的泛化性、通用性和鲁棒性. 近些年基础模型在自然场景领域受到了广泛的关注和研究. 例如, 文心视觉大模型 [10] 设计了新的预训练框架, 在隐含的编码表征空间完成掩码预测任务, 在图像分类、语义分割等经典下游任务上取得突出成就. BEiT-3 模型 [11] 在单模态和多模态数据上进行掩码数据建模, 在目标检测、视觉问答、跨模态检索等多个任务上表现出色。

与自然场景图像不同, 遥感图像具有幅宽大、目标尺寸小等特性, 成像机理和应用场景方面也不尽相同. 不同遥感数据的成像机理和目标特性复杂多变, 传统跨模态解译方式在同一特征空间降维融合, 由于各模态数据特性与空间度量匹配性不一, 散射、辐射等非视觉特征信息损失大, 模型难以突破单模态特征误差上限; 且遥感场景更加复杂, 要素类别繁多, 导致解译任务类型多, 自然场景的基础模型无法直接迁移与应用到遥感场景. 基于对以上难点问题的思考, 本文发现了在不同特征空间中分别提取多模态数据特征稳定性强的规律, 创新性地提出了“分域提取、跨域融合”的思想, 并基于此介绍了提出的遥感跨模态基础模型, 通过在各自特征空间提取降维, 减少信息损失, 然后将异构的输出特征进行融合共享, 提升跨模态数据解译精度, 进而实现单个基础模型完成多类下游任务泛化解译, 已在多个国际标准数据集上进行实验验证, 并开展了应用示范, 证明了该方法的有效性. 本文总结了遥感领域多模态多任务学习方法的研究现状, 分别阐述了遥感跨模态解译和多任务学习的基本概念、研究方法和应用场景. 然后, 针对基础模型应用到遥感领域的难点, 介绍了遥感跨模态基础模型的网络架构, 并进行实验与结果分析. 最后, 展望了该方法的未来技术攻关方向.

2 遥感跨模态解译的研究现状

2.1 遥感多模态数据的基本概念

在遥感领域, 模态通常可以理解为同一场景和目标在不同传感器下的成像结果 [13]. 由于成像机理不同, 多源遥感数据通常具有对地物更丰富的表达信息, 综合分析时能获取更多的知识, 有效突破单一传感器数据解译的瓶颈, 从而实现更加全面的对地观测和分析工作 [14]. 因此, 遥感跨模态解译任务通常是基于多个传感器数据, 结合不同空间、光谱和时间分辨率信息进行训练学习, 进而提升在实际应用中的解译精度. 不同传感器数据对采集方式、成像模式和目标特性的反映形式具有差异 [16], 体现空间、时间和光谱分辨率等重要指标时也有不同的表现. 为了更全面地掌握典型遥感模态所描述的目标特性, 对全色图像、多光谱图像、红外图像、合成孔径雷达 (Synthetic Aperture Radar, SAR) 数据等模态进行介绍, 总结如表1所示。

2.2 遥感跨模态解译的研究方法

遥感跨模态解译涉及到广泛的研究领域, 从不同的角度出发, 具有不同的分类结果. 本节从多模态机器学习 [17,18] 的角度, 将遥感跨模态解译分为模态的表征学习、模态的对齐映射和模态的协同融合三个关键研究方向, 如图1所示

模态的表征学习主要研究如何将不同模态数据中包含的语义信息抽象为实值向量. 通过将模态转化成向量表示, 有利于计算机识别处理和下游任务分析. 良好的模态表示往往有助于得到优异的遥感图像解译效果, 所以模态的表征学习十分重要. 目前, 单个模态的特征提取发展比较成熟. 多个模态的表示学习需要联合多模态的数据, 如何利用模态间的互补性和去除模态间的冗余性是遥感跨模态解译研究的重点和难点. 模态的对齐映射方法通过研究两种或者多种模态间元素的连接关系来进行对齐. 例如, 将来自不同传感器的两幅相同场景的遥感图像进行对齐. 一般来说, 遥感跨模态将不同模态的连接关系分为空间连接和时间连接, 对应空间对齐和时间对齐. 模态的协同融合旨在通过算法将不同模态的信息合并, 然后利用组合后的信息进行处理、分析和决策. 和单个模态相比, 两个或者多个模态信息融合利用了不同模态的互补信息, 得到的融合后的数据质量更高、信息更丰富、可用性更强. 本节从两个方面阐述遥感跨模态的融合策略, 根据模态融合的阶段可以分为数据级融合、特征级融合和决策级融合等; 根据数据融合的类型可以分为同质数据融合、异质数据融合等.

2.3 遥感跨模态解译的应用场景

在遥感领域, 跨模态解译常见的应用场景主要有目标检测、要素提取和预测估计. 为了克服单一传感器成像的局限性和智能解译能力上的不足, 对具有不同成像机理的多模态遥感数据进行联合分析, 提取不同模态数据之间的互补信息, 有助于从多角度对目标特性进行理解和当前学习任务进行优化. 由于遥感图像通常具有尺度较大、待检测目标小而密集、方向随机等特点, 跨模态遥感目标检测通常面临着小目标难以识别等挑战. 同时, 受传感器限制, 单模态遥感目标检测的性能几乎达到瓶颈. Huang 等人 [81] 提出了一种基于桥接神经网络的光学-SAR 图像联合智能解译框架, 通过光学-SAR 匹配优化多模态的特征相关性, 提升目标通用特征提取能力, 进而提高舰船检测精度. Zhang 等人 [82] 提出一种快速准确的小目标检测方法 SuperYOLO, 利用像素级多模态融合从红外图像和可见光图像中提取信息, 以获得更适合的小目标特征, 并在多尺度目标上进行高分辨率目标检测, 提升检测精度的同时有效地降低了计算代价. 跨模态遥感解译对要素提取任务也显示出巨大的潜力. Audebert 等人 [83] 利用残差校正对来自光学和激光雷达的数据进行融合, 设计双流模型对跨模态数据进行提取, 再对预测结果进行平均得到最终的结果, 通过融合两个模态的信息提升了语义分割的精度. Hong 等人 [84] 设计了由提取网络（Ex-Net）和融合网络（Fu-Net）组成的双流深度模型, 针对多光谱和 SAR 图像的多模态数据集, 研究如何训练深度网络和构建网络架构, 并尝试了五种不同的融合策略, 提出的融合模型有效提升了像素级分类任务的精度. 利用多模态数据进行预测估计是遥感领域的热门研究方向, 基于多模态图像的单目深度估计作为其中的一个重要研究任务, 该类方法旨在利用输入图像推测出具体的深度, 目前已应用于城市规划、三维重建等多个领域. Ghamisi 等人 [85] 首次在遥感领域使用条件生成对抗网络模拟来自彩色图像的高程信息, 所研究的架构使用具有跳跃连接的编码器-解码器网络, 建立了图像到数字表面模型（Digital Surface Model, DSM）的转换规则, 生成合理的高程信息, 从而显著提高分类精度.

3 遥感多任务学习的研究现状

3.1 遥感多任务的基本概念

虽然深度学习技术极大地提升了遥感单任务解译的性能, 但面对复杂遥感场景, 单任务学习往往难以取得令人满意的结果. 例如, 针对地物要素提取任务, 深度神经网络在降采样过程中, 往往会丢失形状细节, 从而导致边界模糊; 大多数目标跟踪算法都由检测和重识别两个独立的阶段组成, 这导致网络运行效率低下, 难以实现实时跟踪. 此外, 单任务模型在实际应用时还存在效率低下的问题, 针对覆盖范围上万平方公里的大范围场景, 上千种目标要素快速分类提取的应用需求, 需要多个单任务模型针对同样的数据重复处理, 不仅需要庞大的计算、存储等资源, 还要求较长的推理运行时间. 多任务学习 (Multi-Task Learning, MTL) 旨在利用不同任务之间的相似性, 通过决策并行的模式同时解决多个不同任务. 各个任务在学习过程中共享知识, 能从相关联的任务中获得额外的有用信息, 从而学到的模型效果更好、更鲁棒、泛化性能更好; 同时多任务学习在训练过程中使用共享表示, 多个任务同时预测, 减少了数据来源的数量以及整体模型参数的规模, 使预测更加高效. 表3总结展示了遥感智能解译领域的常见任务.

3.2 遥感多任务学习的研究方法

近年来, 对于遥感多任务的研究主要包括多任务共享机制、多任务学习优化和多任务增量学习等方面, 如图3所示. 多任务共享机制旨在为不同任务选择合适的网络共享机制进行学习, 主要包含硬参数共享、软参数共享、混合参数共享等模式. 多任务学习优化的目的是在训练过程中平衡多个任务使之达到最优, 一般包括多任务损失平衡、对抗训练、预测蒸馏等优化策略. 此外, 多任务学习通常假设所有任务数据可同时获得并对网络进行联合训练, 然而在现实场景中, 不同任务的数据通常是按次序到来的, 模型在多个任务上依次训练会面临灾难性遗忘问题. 多任务增量学习方法研究如何在时序任务的学习过程中, 学习新任务的同时不会忘记先前任务的知识, 从而减轻或避免模型的灾难性遗忘, 主要包括记忆重放、参数扩展与隔离、正则化等方法.

4 遥感基础模型

4.1 背景介绍

尽管现有多模态多任务方法可初步帮助模型在不同数据源及任务上提升泛化性能, 但此类策略仍存在一些亟待解决的问题. 首先, 部分方法为实现多源信息融合与交互, 将模型整体结构设计的相对复杂, 导致难以泛化至其他领域. 其次, 模型的训练普遍基于有监督范式, 需要有标注数据以学习与理解不同任务间的关联关系. 模型的泛化能力很大程度上仍限制在标注信息内, 缺乏普适性. 最后, 已有多模态多任务模型对于数据有更高的成像与标注要求, 增加了训练成本. 基础模型能够以自监督的方式来帮助模型从海量的未标注样本中学习到更通用的泛化特征. 相比于现有多模态多任务方法, 基础模型对于数据标注的要求更低, 却可以极大地提升模型的泛化性. 因此, 多模态多任务基础模型在近些年受到了更多的关注与研究.

本节关注于多模态遥感卫星观测信息和多任务智能处理需求, 构建了基础模型和下游任务结合的解决方案. 目前, 虽然已有若干面向光学遥感数据解译的单模态基础模型被提出 [12, 170∼172], 但由于多模态遥感数据特性各异, 具有不同的传感器、成像机制、分辨率和空间信息 [188], 导致现有单模态方法直接应用于多模态数据无法稳定提取各模态特征, 难以突破解译性能上限. 在基础模型构建方面, 针对跨模态遥感解译领域的固有挑战, 研究发现不同泛函空间中分别提取多模态数据特征稳定性强的规律, 创新性地提出“分域提取、跨域融合”的思想, 基于此设计了遥感跨模态基础模型, 将特征在各自特征空间提取降维, 减少信息损失, 然后将异构的输出特征进行融合共享, 实现单个基础模型适配多类下游应用任务的泛化解译。如图6所示, 该遥感跨模态基础模型主要部件包括用于分域提取的多空间特征提取网络和用于跨域融合的多模态特征融合网络. 具体而言, 对于输入的多模态遥感数据, 多空间特征提取网络首先学习相应特征空间中的多类异构特征. 然后, 多模态特征融合网络利用特征对齐和交互来实现跨模态互补信息的学习, 并通过自监督预训练提高多模态遥感数据基础模型的解译性能. 形式上, 给定具有 M 个遥感模态的无标签数据集 D = {xm} M m=1, 该遥感跨模态基础模型旨在以自监督的方式来学习多模态遥感表示 fθ(xm). 假设利用 θ 参数化该模型表示为 fθ, 通过最小化 fθ 生成的特征和特定目标 ym 之间的损失函数来更新:

其中 ym 在无标签数据中未被显式定义, 通过特定前置任务来进行自监督学习. 本节假设通过上述训练的模型可学到更通用的多模态遥感表示, 从而有利于多类下游解译任务性能的提升.

5 下一步研究展望

遥感跨模态和多任务智能处理技术极大丰富了模型学习到的有用知识, 有助于提升模型在各项任务中的准确性; 并保证了模型不局限于单一任务的优化, 增加模型的通用泛化性. 基础模型其作为遥感解译领域的智能基座, 受到了学术界和工业界越来越多的关注. 目前该领域还有许多极具潜力的研究方向有待进一步探索: （1）统一模型构建. 尽管预训练大模型已经在多种下游任务上取得显著成效, 但是目前仍局限于特定的任务, 当面对数据采集困难、采集设备昂贵的任务, 预训练大模型的泛化能力仍不足以支持其实现良好效果. 通过构建统一模型和规范化接口, 仅使用一套模型参数即可支持多种模态的输入数据, 输出多种任务及其组合, 抛弃针对固定任务训练固定模型的训练模式, 打破数据之间的界限, 实现针对任一任务都可以进行效果良好的预测, 是有待研究的关键技术. （2）知识嵌入. 国内外基础模型已经取得较大进展, 但是对于大部分基础模型普遍认知能力有限的问题仍然尚未解决. 例如, 基础模型仍然不具备自动校验能力和判断能力, 在面对一些观点时会陷入矛盾和纠结. 为了进一步增强基础模型的认知能力, 引入额外的先验知识至关重要. 因此, 后续可以尝试将知识图谱引入基础模型, 使用专家知识对模型进行引导, 在加强感知能力的基础上来提升认知能力. （3）时空预测. 基础模型目前主要针对图像数据进行训练, 并在识别任务上具有良好的泛化效果, 对其他计算机视觉任务同样具有启发意义. 视频预测、目标跟踪、时序图像语义分割等任务是基础的计算机视觉任务, 对于军事、国防等领域具有重要意义. 针对预测任务进行预训练大模型的设计仍然处于初级阶段, 可以进一步考虑对时空预测大模型展开研究. 时空预测大模型通过使用统一的模型架构, 输入遥感时序数据对模型展开训练, 分析时序数据中包含的动态时间信息, 在下游任务上进行微调后, 实现良好的预测效果.

成为VIP会员查看完整内容