摘要—遥感中的时序图像分析传统上集中于变化检测,即识别在不同时间拍摄的图像之间的变化区域。然而,变化检测仍然局限于其对视觉层面解读的关注,往往缺乏上下文或描述性信息。视觉-语言模型(VLMs)的兴起为遥感时序图像分析引入了一个新维度,通过将视觉信息与自然语言相结合,为时序图像变化的高级解读开辟了新的方向。遥感时序视觉-语言模型(RSTVLMs)允许动态交互,生成描述性字幕、回答问题,并提供对时序图像更丰富的语义理解。这种时序视觉-语言能力对于复杂的遥感应用尤为重要,其中高层次的洞察力至关重要。本文全面回顾了RSTVLM研究的进展,重点介绍了最新的VLM在时序图像分析中的应用。我们对核心方法、数据集和评估指标进行了分类和讨论,突出了时序视觉-语言任务中的最新进展,并概述了该新兴领域的主要挑战和未来研究方向。本综述填补了文献中的关键空白,提供了RSTVLM的综合概述,为遥感时序图像理解的进一步发展奠定了基础。我们将在https://github.com/Chen-Yang-Liu/Awesome-RS-Temporal-VLM上持续追踪相关工作。
关键词—遥感,时序图像理解,视觉-语言模型,大型语言模型。
I. 引言遥感技术通过卫星、无人机等各种平台获取地球表面的图像信息【1】–【4】。它在环境监测、城市规划、灾害预警和评估等关键领域中发挥着重要作用【5】–【8】。早期的遥感图像解译主要集中于单时相图像的分析,包括土地覆盖分类【9】、物体检测【11】【12】和语义分割【13】【14】等任务。然而,单时相图像仅反映特定时刻的表面状况,无法捕捉跨时间的动态变化。随着遥感技术和设备的快速进展,获取多时相遥感图像的能力得到了显著提高【15】–【17】。多时相遥感图像提供了不同时间点下某些位置的表面特征信息,为地表变化的动态监测开辟了新途径【18】【19】。这一时序维度至关重要,因为它使研究人员能够分析随时间变化的趋势,从而对环境动态有更全面的了解。早期的时序图像理解主要集中于变化检测技术,通过比较不同时间段的图像来定位变化区域,如植被覆盖变化或新建筑物的出现【20】【21】。然而,变化检测通常仅在视觉层面上检测变化位置,缺乏对变化的更高层次语义理解,如变化对象的类型、变化过程中的状态,以及对象之间的关系【22】–【24】。近年来,像Llava【25】和GPT-4【26】等视觉-语言模型(VLMs)取得了突破性进展,推动了多模态研究领域对视觉-语言模型的关注【27】–【29】。VLMs结合了计算机视觉和自然语言处理技术,能够全面理解视觉和文本信息。与专注于单一图像模态的视觉模型不同,VLMs不仅识别图像中的目标对象,还理解它们之间的关系,生成描述性语言或回答问题。这一能力在遥感领域具有巨大的应用潜力【30】–【32】。在遥感领域,已有研究探讨了各种视觉-语言模型,如图像描述【33】–【36】、视觉问答(VQA)【37】–【40】、视觉问题生成【41】【42】、图像检索【43】–【45】和视觉定位【46】–【48】等。一些近期的研究探索了基于大型语言模型(LLMs)的遥感视觉语言模型,如RSGPT【49】、GeoChat【50】、H2RSVLM【51】、LHRS-Bot【52】和EarthGPT【53】。然而,这些VLMs主要关注单时相遥感图像,无法实现多时相遥感图像的理解。随着VLM的不断发展,针对多时相遥感图像的研究进入了一个新的发展阶段。研究人员越来越多地探索专为时序图像理解设计的遥感时序视觉-语言模型(RS-TVLMs),涉及变化描述【22】【23】和变化视觉问答【54】【55】等任务。RS-TVLMs的研究丰富了时序图像解译的工具。语言作为人类沟通和知识的载体【56】,在融入时序图像分析时能够增强模型的高层次理解。通过将时序视觉信息与语言结合,RS-TVLMs不仅可以识别目标和变化,生成描述性文字,回答相关问题,还能进行多模态交互,从而将时序图像的解译扩展到超越单纯的视觉判断。图1展示了一些具有代表性的RS-TVLM及其发表日期,表明该领域的研究可追溯到2021年。目前,相关研究数量正在迅速增加。尽管RS-TVLMs的研究兴趣日益增长,但系统性的综述仍然较少。现有的许多研究集中于特定任务的孤立方法,这使得研究人员很难全面了解该领域的进展和未来方向。贡献。鉴于RS-TVLMs的快速进展和良好的发展前景,我们撰写了本综述,旨在让研究人员了解基本概念、主要方法、数据集、评估指标及变化描述和变化视觉问答等任务的当前进展。据我们所知,这是关于RS-TVLMs的首篇综述。通过回顾现有研究,我们希望为该领域的研究描绘清晰的路径和未来方向,弥补当前相关综述中的空白,并为遥感时序图像理解的RS-TVLM研究奠定基础。IV. 遥感时序视觉-语言模型目前,遥感时序图像中的视觉-语言理解研究主要集中在几个关键领域:变化描述、变化视觉问答、变化检索和变化定位。这些任务旨在通过多模态建模和语言理解增强遥感时序图像的解译。此外,随着大型语言模型(LLMs)的发展,一些近期的研究探索了将LLMs集成进来,进一步提升遥感时序图像的视觉-语言理解。
当前,遥感时序图像的视觉-语言理解研究主要集中在遥感变化描述(RS-CC)任务上。该任务旨在生成详细准确的自然语言,描述不同时间拍摄的遥感图像中的地理特征变化【22】【23】【140】。这种描述有助于用户快速理解关键变化,并为时序遥感数据的决策和分析提供直观的语义支持。变化描述要求模型准确识别重要变化,并将其转化为自然、连贯的语言。这个转化过程不仅依赖于精确的视觉变化识别,还要求具有较强的语言生成能力,以确保语言的准确性和流畅性。以往的变化描述方法通常基于深度学习,并遵循三阶段架构,如图4所示:视觉编码、双时相融合和语言解码。每个阶段对整体模型性能有重要影响,因此近期的研究集中在提高这三个阶段的性能。表I总结了一些代表性的方法。视觉编码旨在从双时相图像中提取丰富的语义特征,通常采用Siamese编码器以促进双时相图像之间的比较。编码器通常基于卷积神经网络(CNNs)或视觉变换器(ViTs)。CNNs在捕捉空间细节方面表现优异,而ViTs则通过全局注意力机制提取广泛的地理信息。许多方法利用预训练的图像编码器,如ResNet【141】或ViT【142】。例如,Chang等人【22】使用ResNet-101作为编码器,Liu等人【143】使用ViT,并比较了在ImageNet【144】和CLIP【145】上训练的ViT的性能。此外,一些研究探索了通过自监督学习训练专门适应变化提取的编码器。例如,Zhou等人【24】提出了一种在大规模双时相遥感图像数据集上预训练的单流提取器,显著增强了变化特征提取的鲁棒性。大多数研究集中在提高双时相融合阶段的模型性能,这是变化描述的核心阶段。该阶段旨在整合双时相特征,捕捉潜在的时序变化模式。在双时相融合过程中,模型应准确识别两张图像之间的显著差异,同时抑制无关的伪变化(例如,由于光照或天气变化导致的变化)。以往的研究通常采用CNN或Transformer作为基本模块,并提出一些注意力机制来增强模型的变化感知能力。例如,Liu等人【23】提出了一种基于Transformer的方法,称为RSICCformer,该方法由多个交叉编码模块组成,利用差异特征,允许模型关注每张图像中的变化区域。此外,研究人员还将多尺度策略融入到方法中,以进一步增强模型识别多样变化的能力【148】【149】。语言解码器将融合后的视觉特征转化为自然语言描述。早期的方法使用支持向量机(SVM)或长短期记忆(LSTM)网络进行语言生成。Chouaf和Hoxha等人【150】【151】比较了RNN和支持向量机(SVM)作为语言解码器的性能。鉴于Transformer解码器具有强大的生成能力,RSICCformer【23】首次将Transformer引入遥感变化描述任务,采用交叉注意力机制,使模型在生成单词时能专注于特定的图像区域。尽管Transformer表现良好,但随着序列长度的增加,模型的计算复杂度呈平方级增长。为了解决这一挑战,近期的研究引入了Mamba模型【116】,该模型以线性复杂度运行。Liu等人【122】提出了空间差异感知SSM(SDSSM)和时空遍历SSM(TT-SSM)以改善时空联合建模的能力。此外,他们比较了三种不同的语言解码器,包括Mamba、生成预训练Transformer(GPT)风格解码器和Transformer解码器。上述的编码-融合-解码框架以耦合方式处理变化和不变的图像对。与此不同,Liu等人【143】提出了一种解耦范式,将变化描述解耦为两个问题:“是否发生变化”和“发生了什么变化”。他们将解耦结果输入到预训练的大型语言模型(LLM)中,通过多提示学习策略进行语言生成。解耦范式使研究人员能够独立集中于改善变化图像对和不变图像对的描述。
在遥感时序图像分析中,变化检测和变化描述任务侧重于不同层次的变化信息提取【103】【166】。变化检测主要关注生成像素级的变化掩膜,通过双时相图像识别和突出变化区域。相比之下,变化描述则旨在对这些变化进行语义层次的理解,包括对象属性和上下文关系。鉴于这两个任务之间的内在联系,近期的研究将变化检测和变化描述整合为统一的多任务学习框架,以提高变化解译的整体效率和准确性。表II总结了一些代表性的方法。Change-Agent【103】是该领域的代表性工作之一,建立了一个多任务学习框架,为后续的研究奠定了基础【166】–【170】。如图5所示,该框架基于共享的视觉编码器,分别为变化检测和变化描述任务采用两个任务特定的分支。在视觉编码阶段,模型从双时相图像中提取时序特征,这些融合的特征为每个任务的后续分支提供支持。值得注意的是,与传统的变化检测模型类似,变化检测分支通常利用视觉编码器提取的多尺度双时相特征,以确保变化掩膜的精确性和细节。与此同时,变化描述分支通常仅利用最深层的视觉特征,关注变化的语义,设计上与单任务变化描述模型相似。在多任务框架中平衡两项任务的训练是一项关键挑战。当前的研究通常应用加权损失,通过不同的权重将变化检测和变化描述的损失结合起来。例如,文献【166】采用了通过调整辅助任务梯度大小的元平衡策略【171】,而【169】和【170】则采用了动态权重平均策略【172】。此外,一些近期研究探索了变化检测如何专门帮助变化描述提高描述的准确性【163】【173】。核心思想是,像素级的变化检测能够增强变化描述模型识别变化的能力,特别是在低光照条件下或针对小结构的变化。例如,MV-CC【163】使用低分辨率的变化检测掩膜作为显式指导,帮助模型准确关注变化区域。 C. 遥感变化视觉问答
遥感变化视觉问答(RS-CVQA)任务旨在根据时间变化的遥感图像和用户特定问题生成自然语言回答。与变化检测和图像标注任务不同,RS-CVQA强调用户与时间变化图像之间的互动语言交流,提供了一种更加灵活和高效的方式来获取图像中变化的信息。图6展示了一个典型的RS-CVQA模型框架,包括以下关键阶段:视觉编码、问题编码、多模态交互和答案生成。一些代表性的方法在表III中进行了总结。在视觉编码阶段,模型通常采用双重编码器分别从双时相遥感图像中提取特征,并融合这些时间特征以捕捉图像中的变化信息。 在问题编码阶段,通常使用预训练的语言模型(如BERT [130] 或 GPT [174])将用户的复杂问题转化为适合模型理解的语义嵌入。 在多模态交互阶段,广泛应用注意力机制(如自注意力和交叉注意力)来对齐和融合视觉变化与语言特征,使得模型能够根据问题中的语义提示,关注图像中的关键变化区域。这种多模态交互增强了模型对图像变化的理解,并确保生成的答案与视觉内容紧密相关。 最后,答案生成阶段将融合的多模态特征转化为自然语言回答。根据答案生成方法,RS-CVQA方法大致分为两类:基于候选答案的RS-CVQA和逐字生成的RS-CVQA。在基于候选答案的RS-CVQA中,答案生成模块被设计为多类别分类器,从预定义的候选答案集中选择最佳答案。Yuan等人[175]首次提出了这个任务,将答案分为几个固定类别,并允许分类器从中直接选择答案。这种方法计算效率高且稳定,适用于目标明确且变化类型固定的任务。然而,由于其依赖于有限的预定义答案池,这种方法的灵活性较差,可能不适用于处理更复杂、开放性的问题。 相比之下,逐字生成的RS-CVQA采用生成语言模型(如Transformer解码器)逐字生成答案。这种方法更适合开放性问题,能够生成灵活且细腻的回答。随着大规模语言模型(LLM)的兴起,基于生成模型的RS-CVQA逐渐成为主流,许多最新的方法开始整合LLM,以提供更丰富的答案生成能力。例如,ChangeChat[176]和CDChat[177]使用与先前的LLava[25]和Minigpt-4[178]类似的架构,使用双时相视觉嵌入和用户文本嵌入作为LLM Vicuna-v1.5[179]的前缀。 D. 遥感文本到变化检索
随着遥感图像数据的快速增长,如何高效地检索符合特定用户需求的图像,已成为环境监测、灾害评估和城市规划等领域的关键问题。传统的基于文本的图像检索技术将用户提供的查询文本与单时相图像进行匹配。然而,这种技术忽略了遥感图像中的时间变化,难以满足用户对动态场景的检索需求。 遥感文本到变化检索(RSI-TCR)应运而生,以解决这一限制。其核心目标是高效检索符合用户输入查询描述的图像变化的双时相图像对。RSI-TCR显著减少了筛选大规模数据集所需的人工工作量,提高了庞大遥感数据集的可用性。这项技术在实际场景中展现了巨大的价值。例如,在灾害管理中,RSI-TCR可以根据查询文本(如“洪水淹没”)迅速定位受影响区域的时相图像,为灾后应急响应提供必要的数据。 与传统的基于文本的图像检索任务(通常涉及“文本”和“图像”之间的二元匹配)相比,RSI-TCR更加复杂,因为它需要进行三模态匹配——“事件前图像”、“事件后图像”和“文本”。这种复杂性要求模型在多模态语义空间内处理时空变化和文本信息之间的复杂关系。Ferrod等人[102]首次使用LEVIR-CC数据集[23]研究了RSI-TCR任务,并提出了该任务的框架,如图7所示。在他们的方法中,Chg2Cap模型[22]的编码器被用来从双时相图像中提取语义变化嵌入。用户提供的查询文本通过Transformer解码器编码为文本嵌入。然后,他们通过对比学习损失函数(特别是InfoNCE [181])将图像变化嵌入与查询文本嵌入对齐。RSI-TCR中的核心挑战之一是伪负样本的问题。具体来说,在训练批次中标记为负样本的图像对,实际上可能是与查询文本匹配的正样本,这可能干扰模型训练。这个问题在许多使用对比学习的任务中都很常见,并且已有解决方案来应对这个问题[182][183]。为了解决这个问题,Ferrod等人[102]采用了两种常见的策略来提高复杂变化场景中的检索精度:1)伪负样本排除(FNE):排除可能的伪负样本以防干扰。2)伪负样本吸引:将可能的伪负样本重新标记为正样本,以更好地对齐数据中的真实关系。E. 遥感变化定位
遥感变化定位(RS-CG)旨在在双时相遥感图像中识别和定位由用户提供的查询文本所指示的变化区域。通过将自然语言作为查询模态,RS-CG显著增强了用户交互的灵活性,相比传统的变化检测方法(仅限于固定类别的输出)。RS-CG的输出通常以两种形式呈现:边界框和像素级掩模,如图8所示。 边界框通过矩形轮廓标注变化区域,提供目标变化的直观空间位置。而像素级掩模则提供变化区域形状和边界的精确划分,非常适合细粒度分析。 Irvin等人[101]采用了受LLaVA-1.5[25]启发的模型架构。他们使用时间共享的ViT-L/14对时间变化图像进行编码,通过MLP将嵌入映射后再送入LLaMA-2[107]。LLM输出边界框的坐标,以文本格式有效地将检测到的变化定位到输入查询中。Li等人[55]提出了一种名为VisTA的新型多任务模型,设计用于变化检测问答和定位。VisTA不仅能够回答用户问题,还能同时生成与文本答案相关的像素级变化掩模。文本答案通过双层MLP生成,而掩模解码器由两个注意力模块组成。这种双重输出方法使VisTA能够提供语义和视觉的双重解释,成为RS-CG任务的多功能解决方案。
结论通过将计算机视觉与自然语言处理相结合,遥感时间变化视觉语言模型(RS-TVLMs)大大增强了分析时间变化遥感数据的能力,在灾害监测、环境分析和城市规划等领域具有广泛应用。本文综述了RS-TVLMs的进展,包括基本概念、主要方法、数据集和评估指标。通过回顾现有研究,我们旨在为该领域的研究提供清晰的发展路径和未来方向。此外,仍然存在一些挑战,如大规模数据集的收集、基础模型的设计以及多时相图像序列的处理等。