大模型+遥感？最新《遥感中的人工智能基础模型》综述

人工智能（AI）技术已经深刻地改变了遥感领域，彻底革新了数据收集、处理和分析的方式。传统上依赖于手工解释和特定任务模型的遥感，因基础模型的出现得到了显著增强。基础模型是指大规模、预训练的AI模型，能够以前所未有的精度和效率执行各种任务。本文对遥感领域的基础模型进行了全面的综述，涵盖了2021年6月至2024年6月期间发布的模型。我们根据这些模型在计算机视觉和特定领域任务中的应用对其进行分类，并提供了关于其架构、预训练数据集和方法论的深入见解。通过详细的性能比较，我们突出了这些基础模型所取得的显著进展和新兴趋势。此外，我们还讨论了技术挑战、实际影响和未来研究方向，特别是针对高质量数据的需求、计算资源以及模型泛化能力的提升。我们的研究还发现，预训练方法，尤其是对比学习和掩码自编码器等自监督学习技术，显著提升了基础模型在遥感任务中的性能和稳健性，例如场景分类、目标检测等应用。本文旨在为研究人员和从业者提供资源，通过对基础模型在遥感中的进展和未来发展路径的全景式综述，推动该领域的持续发展和应用。

关键词——遥感、机器学习、人工智能、图像处理、计算机视觉、Transformers。

人工智能（AI）技术已经深刻地变革了遥感领域，彻底革新了数据的收集、处理和分析方式。传统上，遥感项目严重依赖于手动解释和任务特定模型，这些模型需要大量的标记数据集和显著的计算资源。然而，随着AI和深度学习（DL）的出现，一个新的时代已经到来。在这个时代中，大规模的预训练模型，即基础模型，能够以前所未有的精度和效率执行各种任务。这些进步不仅增强了遥感的能力，还为其在各个领域的应用开辟了新的途径。近年来，出现了许多基础模型，它们在处理多样的遥感任务方面表现出了卓越的性能。这些模型有可能显著提升多个下游任务的性能，如场景分类、语义分割、目标检测等。通过利用海量的预训练数据和复杂的架构，这些基础模型在该领域设立了新的基准，使其成为研究人员和工程师不可或缺的工具。本文旨在提供遥感领域基础模型的全面综述，涵盖了2021年6月至2024年6月期间发布的基础模型。在图1中，按时间顺序列出了51个视觉模型。为了方便研究人员的导航和使用，我们根据这些模型在计算机视觉任务和特定领域任务中的应用对其进行了分类。这样的分类方式可以更清晰地了解哪些模型适用于特定目的，无论是一般的基于图像的挑战，还是更为专业的应用，如环境监测、土地覆盖和土地利用、考古勘探、灾害管理或其他领域。我们的贡献包括：

对遥感领域提出的基础模型进行了详尽的回顾，从基础模型的背景和方法论到不同领域和任务中的具体应用，进行了分层和结构化的综述。
对这些模型在计算机视觉任务（表I）和特定领域任务（表5）中的应用进行了分类和分析。我们讨论了每个模型的架构、预训练数据集、预训练方法及其性能。
针对遥感中基础模型相关的挑战和未解决的问题进行了讨论。我们指出了新趋势，提出了重要问题，并为进一步探索提供了未来的研究方向。

基础模型（FMs）指的是大规模的预训练模型，这些模型为不同领域的各种下游任务提供了坚实的起点。基础模型利用广泛的数据集和先进的架构，能够捕捉复杂的模式和特征，并通过较少的额外训练进行微调以适应特定的应用。在遥感领域，由于数据的多样性和复杂性，包括多光谱和多时相影像，基础模型显得尤为重要。诸如自监督学习（SSL）和Transformers等技术显著提高了图像分类、目标检测和变化检测等任务的性能和效率，解决了遥感数据所带来的独特挑战。

基础模型的发展得益于深度学习的进步和大型数据集的可用性。最初，卷积神经网络（CNNs）如ResNet为图像识别和分类任务的改进铺平了道路。Transformers的引入，利用自注意力机制来建模远程依赖关系，进一步提升了基础模型在处理大规模图像数据方面的能力。

遥感中的基础模型的特点在于它们能够通过SSL技术利用大量未标记数据，从而在无需大量标记数据集的情况下学习到稳健的表示。主要的SSL方法包括对比学习，它通过比较同一数据点的不同增强视图来学习表示；以及预测编码，它通过观察部分数据来预测输入数据的缺失部分。

遥感领域的知名基础模型包括SatMAE，它为时间和多光谱卫星影像预训练Transformers；Scale-MAE，一种用于多尺度地理空间表示学习的尺度感知掩码自动编码器；以及DINO-MC，它通过全球-局部视图对齐扩展了SSL在遥感影像中的应用。这些模型在场景分类、目标检测和变化检测等各种遥感任务中表现出色。

尽管取得了成功，基础模型仍面临诸多挑战，包括对高质量和多样化训练数据的需求、显著的计算资源消耗，以及将模型有效适配于特定遥感任务的领域适应性。这些挑战的解决对于基础模型在遥感中的持续进步至关重要。

方法论

近年来，遥感基础模型（FMs）的发展依赖于各种复杂的方法学，包括自监督学习（SSL）、Transformers及视觉Transformers（ViT），以及残差神经网络（ResNet）。这些方法显著增强了基础模型的能力，使其能够在没有大量人工监督的情况下从大量数据中学习，处理复杂的数据结构，并改善特征提取和表示能力。本节将回顾这些方法在遥感领域的机制和贡献。

**A. 自监督学习（SSL）训练策略在遥感基础模型中的应用

自监督学习（SSL）在基础模型的预训练阶段起着至关重要的作用。通过SSL，模型能够从输入数据的部分信息中预测另一部分，从而减少对大量标注数据集的依赖。在遥感中，由于标注数据的稀缺性，SSL显得尤为重要。使用SSL预训练的模型能够有效地从大量未标注的遥感数据中捕捉模式和特征，使其在下游任务中非常高效。图3展示了自监督学习的一般流程。 在遥感应用中，常用的两种SSL方法是对比学习和预测编码。 1. 对比学习：对比学习旨在通过比较同一数据点的不同增强视图来学习表示。其核心思想是在特征空间中将相似（正样本）对拉近，而将不相似（负样本）对推远。这种方法高度依赖于数据增强，以创建同一图像的多个视图。 1. 预测编码：预测编码是另一种SSL技术，模型通过观察部分数据来预测输入数据的缺失部分。这种方法有助于捕捉数据中的空间和时间依赖性。常见的预测编码方法包括自动编码器（AE）和掩码自动编码器（MAE）。

常用的SSL方法包括SimCLR、MoCo（动量对比）、BYOL（自我引导潜在空间）和DINO（无标签自蒸馏）。这些方法各有特色，在生成正负样本对和更新模型参数方面采取了不同的策略。这些方法在遥感中的场景分类、语义分割和目标检测等任务中表现出色。例如，SSL可以帮助模型在标注数据有限的情况下，学习分类土地覆盖类型、识别建筑物和车辆等目标，并分割卫星图像中的不同区域。

**B. 主干网络（Backbones）

在深度学习中，主干网络是作为特征提取器的关键神经网络架构。它们构成了模型的基础层，处理输入数据以生成丰富的、层次化的特征表示。这些表示可以被模型的后续组件用来执行各种任务，如分类、检测和分割。通过利用强大的主干网络，模型能够高效地处理复杂数据，并在不同应用中提升性能。

主干类型I：Transformers和视觉Transformers（ViT）：Transformers最初为自然语言处理设计，通过自注意力机制建模长距离依赖关系，彻底改变了计算机视觉领域。视觉Transformers（ViT）将Vaswani等人（2017）提出的Transformers架构适用于图像数据，将图像块视为序列的token。这种适应在遥感中尤为有用，因为图像往往较大且包含复杂的空间结构。图4展示了用于遥感分割任务的ViT基本结构。

ViT的关键组件包括图块嵌入、位置编码、Transformer编码器和分类头。图块嵌入将图像分割为固定大小的块，并将每个块线性嵌入到向量中。位置编码则为图块嵌入添加空间结构信息。Transformer编码器由多层多头自注意力和前馈神经网络组成，处理嵌入块的序列以捕捉全局依赖关系。最后，分类头是一个全连接层，用于处理最终的序列表示以执行下游任务，如图像分类。Transformer中的自注意力机制允许每个token关注所有其他token，为捕捉全局上下文提供了强大的方式。 ViT在遥感任务中表现出色，如土地覆盖分类、城市区域识别和植被分析，利用其捕捉局部和全局模式的能力。

主干类型II：卷积神经网络（CNN）：卷积神经网络（CNN），如残差神经网络（ResNet），通过引入残差连接解决了深层神经网络中的退化问题，这些连接允许梯度绕过某些层，从而促进非常深的网络训练。这一能力在遥感中尤为重要，因为通常需要深度模型来捕捉卫星图像中的复杂细节和变化。

ResNet的特点是其残差块，包括绕过一个或多个层的快捷连接。残差块可以描述为以下公式：y=F(x,{Wi})+x\mathbf{y} = \mathcal{F}(\mathbf{x}, {W_i}) + \mathbf{x}y=F(x,{Wi})+x其中，y\mathbf{y}y是输出，F\mathcal{F}F表示要学习的残差映射，x\mathbf{x}x是输入，{Wi}{W_i}{Wi}是块中各层的权重。根据维度，快捷方式可以是恒等映射（如果输入和输出维度匹配）或卷积层（如果维度不同）。

ResNet有多种架构，如ResNet-50、ResNet-101和ResNet-152，数字表示总层数。这些网络在各种视觉任务中表现出色，因为它们能够在不退化的情况下训练更深的网络。在遥感中，ResNet广泛用于图像分类、目标检测和变化检测任务。例如，基于ResNet的模型可以分类不同的土地覆盖类型，检测建筑物和车辆等目标，并通过比较时间序列卫星图像来监测景观变化。

通过结合这些方法，遥感基础模型能够利用大量数据，处理复杂结构，并在各种应用中实现最先进的性能。这些方法使模型能够有效应对遥感的独特挑战，如大图像尺寸、多样化数据源，以及在环境监测和分析中对高精度的需求。

在接下来的部分中，我们将探讨这些方法在不同遥感任务中的具体应用，分析其性能，并讨论用于训练和评估这些模型的数据集。

在这篇全面的综述中，我们回顾了2021年6月至2024年6月间开发的遥感基础模型的进展。我们将这些模型分类为视觉模型和视觉-语言模型，重点介绍了它们独特的方法论和能力。我们的分析涵盖了多种先进技术，包括自监督学习（SSL）、视觉Transformers（ViTs）和残差神经网络（ResNets）。这些模型在场景分类、语义分割和目标检测等任务中，以及在环境监测、数字考古、农业、城市规划和灾害管理等特定领域的应用中，显著提高了性能。尽管取得了显著进展，但仍存在若干挑战，如需要更多样化和高质量的数据集、较高的计算需求以及任务特定的困难。解决这些挑战需要进一步的研究和跨学科的合作。总而言之，这篇综述提供了当前遥感基础模型的详细概述，提出了宝贵的见解并指明了未来的研究方向。我们建议继续努力开发高效的模型架构、增强多模态数据整合以及扩大数据集的多样性，以充分发挥这些模型在遥感领域的潜力。