ChatGPT和GPT-4的显著成就引发了对大型语言模型在通用人工智能(AGI)领域的研究和关注。这些模型为我们提供了更接近人类思维的智能解决方案,使我们能够使用通用人工智能来解决各种应用中的问题。然而,在遥感领域,关于AGI实施的科学文献相对较少。现有的与AI相关的研究主要关注视觉理解任务,而忽视了对象及其关系的语义理解。这正是视觉-语言模型的优势所在,因为它们可以推理关于图像及其关联文本描述的信息,从而更深入地理解基础语义。视觉-语言模型可以超越识别图像中的对象,能够推断它们之间的关系,以及生成图像的自然语言描述。这使得它们更适合于需要视觉和文本理解的任务,如图像字幕,基于文本的图像检索和视觉问题回答。本文对遥感领域的视觉-语言模型研究进行了全面的回顾,总结了最新的进展,突出了当前的挑战,并指出了潜在的研究机会。具体来说,我们回顾了视觉-语言模型在几个主流遥感任务中的应用,包括图像描述,基于文本的图像生成,基于文本的图像检索,视觉问题回答,场景分类,语义分割和对象检测。对于每个任务,我们简要描述了任务背景并回顾了一些代表性的工作。最后,我们总结了现有工作的局限性,并提供了一些未来发展的可能方向。本回顾旨在为遥感领域的视觉-语言模型研究的当前状态提供全面的概述,并激发对这一激动人心且重要领域的进一步研究。
1. 引言
深度学习已经成为遥感(RS)应用的强大工具。早期的遥感工作主要侧重于使用从图像中提取的视觉特征来执行各种任务,例如物体检测、语义分割、土地覆盖分类和变化检测。作为最常用的深度学习方法之一,卷积神经网络(CNNs)可以自动学习遥感图像的分层表示,使它们能够捕获局部和全局的空间特征和模式。此外,注意力机制已被整合进深度学习模型,通过让模型关注输入的特定区域来提高其在遥感任务中的表现。由于深度神经网络强大的特征学习能力,深度学习模型在各种遥感任务中的有效性得到了证明,与传统的机器学习方法相比,它们达到了最先进的性能。然而,现有的基于深度学习的研究主要关注视觉理解任务,而忽视了对象及其关系的语义理解。例如,在进行土地覆盖分类时,如果只有视觉的模型可能会把一个像高速公路的建筑物屋顶像素分类为高速公路。这是因为模型缺乏高速公路不能在建筑物屋顶内的一般知识。 近年来,大型语言模型(LLMs)在自然语言处理(NLP)和计算机视觉领域成为了热门的研究话题。这些模型构建了大规模的视觉和自然语言理解转换网络,并在各种语言理解任务中取得了最先进的性能,例如语言建模、文本生成和问题回答[115]。值得注意的是,ChatGPT的显著成就在通用人工智能(AGI)领域的大型语言模型研究中引发了一波关注和研究。预期这些模型在图像理解和自然语言处理方面将会有更多的进步,他们有望将语言理解的水平提升到前所未有的水平。大型语言模型的巨大成功鼓励了大量的视觉-语言模型(VLMs)研究。
视觉-语言模型(VLMs)通常被定义为一类结合了计算机视觉和自然语言处理技术的人工智能模型,它们能够生成对视觉和文本信息的全面理解。通过共同识别视觉和语义模式及其关系,VLMs可以超越识别图像中的对象,能够推断它们之间的关系,以及生成图像的自然语言描述。这使得它们更适合于需要视觉和文本理解的任务,如图像字幕,基于文本的图像检索和视觉问题回答。更重要的是,通过将视觉模型与具有一般推理能力的大型语言模型(LLMs)结合,VLMs提供了一种更全面和类人的方法来理解视觉内容。近年来,VLMs在各种计算机视觉任务中展示了令人印象深刻的结果,包括图像理解[19],[198],视觉问题回答[75],[74],文本到图像生成[125],语义分割[20],[187],对象检测[183],[99]等。 在遥感中,使用VLMs是一个相对新的研究领域。随着与遥感数据相关的文本元数据的日益增多,研究人员已经开始探索在这个领域使用视觉和语言模型[147]。近年来,一些早期的尝试试图探索VLMs用于各种遥感数据分析任务,包括遥感图像字幕[133],[100],[185],[188],[186],[48],[83],[132],[155],[82],[190],[60],[202],[160],基于文本的遥感图像生成[10],[18],[189],[48],[168],基于文本的遥感图像检索[1],[48],[118],[48],[178],[4],[25],[177],[176],[119],视觉问题回答[96],[192],[192],[15],[15],[3],[9],[174],[175],场景分类[72],[136],[113],[150],[86],语义分割[20],[187],对象检测[58],[183],[99]等。随着大规模遥感数据集的可用性增加和深度学习技术的进步,预计视觉和语言模型的使用将在遥感应用的未来中发挥重要作用。
在这项研究中,我们提供了一项全面的综述,从视觉到语言,再到视觉-语言模型(VLMs)在遥感(RS)中模型的演变。具体来说,我们对近期在遥感领域VLMs的进展进行了广泛的文献调研。此外,我们为遥感应用领域VLMs的未来研究方向提供了有价值的见解和建议。我们的工作有助于更好地理解VLMs的当前最新水平,并为这个领域的研究人员提供了探索这些模型在遥感任务中潜力的指导。
遥感中的视觉-语言模型
A. 基础模型。
基础模型指的是在大量数据上以任务无关的方式预训练的大型深度学习神经网络。这些模型可以通过微调、少样本学习或零样本学习应用于各种下游任务。基础模型的例子包括GPT-3 [12],BERT [32]和T5 [117]。这些模型已经在大量文本数据上进行了预训练,并能够为各种NLP任务进行微调,如语言翻译、问答和文本分类。在遥感(RS)中,预训练对于提高分类、检测和分割任务的性能至关重要[165]。以前的方法主要利用ImageNet数据集进行预训练。然而,将ImageNet预训练模型转移到RS任务会因自然图像和RS图像之间的巨大差异而产生巨大的领域差距。因此,设计一个针对RS数据的基础模型是必要的。研究人员使用两种方法来达到这个目标:监督学习和自我监督学习。在监督学习中,[152]在MillionAID数据集上预训练了深度神经网络,这是一个大规模的RS数据集,并提高了这些模型在RS数据集上的性能。然而,需要大量标注数据仍然是一个障碍,因为它可能阻碍更大模型的训练。因此,自我监督技术逐渐成为开发遥感基础模型的主要方法,因为它们可以利用大量的未标注数据[157]。一些工作[2],[79],[6],[105],[47]采用对比学习训练基础模型,加入RS特定信息,如地理数据、时间序列数据、音频数据等。
最近,遮蔽图像建模(MIM)在计算机视觉中越来越受到关注,如BEiT [8],MAE [45],SimMIM [164],因为它消除了对额外信息、数据增强和正负对选择的需要。因此,利用大量数据变得更容易。一些工作将MIM应用于开发RS基础模型。例如,[137]从卫星和航空平台收集了200万张RS图像,创建了一个大规模的RS数据集。基于这个数据集,他们设计了第一个生成自监督RS基础模型,RingMo。RingMo在包括变化检测、场景识别、对象检测和语义分割在内的四个下游任务的八个数据集上取得了最新的成果。[153]首次尝试构建一个具有大约1亿参数的简单视觉变换器,用于定制RS任务的大型视觉基础模型。方法概述如图7所示。他们还引入了一个旋转的可变大小窗口注意机制,以增强视觉变换器适应RS图像的能力。[106]发现在构建地理空间基础模型时,应该考虑到在多样化数据集上预训练的模型,例如ImageNet-22k,因为它们的表现仍然有效。因此,他们以可持续的方式构建了一个用于地理空间应用的地理空间基础模型。[14]开发了RS领域的第一个十亿规模的基础模型,并证明了将模型的大小从百万规模增加到十亿规模的效果。
B. 遥感图像描述
遥感图像描述(RSIC)是一项复杂的任务,需要机器理解遥感(RS)图像的内容并用自然语言进行描述。这是一个具有挑战性的任务,因为生成的描述不仅必须捕捉到不同规模的地面元素,还必须描述出它们的属性以及它们之间的相互关系。与其它旨在预测单个标签或单词的任务不同,RSIC旨在生成全面的句子。为了生成简洁而有意义的句子描述,重要的是要识别并识别出不同级别的地面元素,分析它们的属性,并从高级角度利用类别依赖性和空间关系。
C. 基于文本的图像生成
基于文本的图像生成是一个新兴的研究领域,它结合了自然语言处理和计算机视觉,以便从文本描述中创建逼真的图像。将这种技术应用到遥感(RS)图像中,在现实世界的应用中具有巨大的潜力。它可能带来的一大益处是,通过根据文本描述生成逼真的RS图像,来帮助城市规划者。这将使他们能够评估他们设计的可行性,并做出更明智的决策。另一个可能的用例是生成高质量的RS图像标注数据集,这通常是一个具有挑战性和耗时的过程。基于文本的图像生成技术可以用于从文本描述中创建合成的RS数据集,从而缓解标注样本的短缺。
D. 基于文本的图像检索
如何有效组织和管理大量的遥感(RS)数据,长期以来都是RS领域面临的重大挑战。为了解决这个挑战,基于文本的图像检索(TBIR)已经成为一个突出的研究课题,旨在为RS数据管理提供有效的解决方案。图像检索的主要目标是从大型数据集中提取特定的图像,近年来该领域已经得到了相当多的关注。其基本思想是缩小对目标图像的搜索范围,并检索出与特定查询相匹配的图像。这项任务在诸如森林砍伐检测、视觉导航和城市规划等实际应用中具有价值。
E. 视觉问题回答
视觉问题回答(VQA)是一项旨在对与图像相关的问题提供答案的任务。尽管在计算机视觉领域已经获得了广泛的关注,但在遥感(RS)领域仍处于早期阶段。遥感VQA系统使非专业用户可以使用自然语言问题作为查询来与RS图像进行交互,从而实现对图像的用户友好和高级理解。开创性的工作[96]建立了RS图像的第一个大规模VQA基准数据集。从OpenStreetMap中收集了低分辨率和高分辨率的RS图像数据,以及与图像相关的人生成的问题和答案。在[96]中,作者提供了一种基准方法,使用卷积神经网络(CNNs)进行视觉特征学习,采用长短期记忆网络(LSTM)[48]进行文本嵌入提取。进一步设计了相互关注机制以增强视觉和文本特征之间的对齐。在[95]中,作者通过参考每张RS图像中土地使用类别的存在,构建了一个大规模的遥感VQA数据集。郑等人[192]引入了一个相互关注网络,利用视觉和文本特征之间的语义对应关系,采用双线性模块进行特征融合。Chappuis等人[15]建议使用大型语言转换器,例如BERT[32]进行文本特征学习,并证明其性能优于循环神经网络。
F. 视觉定位
针对遥感数据的视觉定位(RSVG)是近期的一个新颖课题,对于这个任务的研究仍然有限。具体来说,RSVG涉及使用遥感图像和相关的查询表达式,为特定的感兴趣的对象提供边界框[180]。通过使用自然语言引导在遥感场景中定位对象的过程,RSVG提供了对象级别的理解,并为终端用户提供便利。RSVG的潜在应用包括目标对象的检测和识别、搜索和救援任务、城市规划等。
G. 零样本场景分类
零样本遥感场景分类(RSSC)的目标是通过参考视觉特征和语义类别之间的语义关系来识别未见过的场景概念。Li等人[72]提出了第一种基于零样本学习的遥感(RS)场景分类方法,该方法使用在Wikipedia语料库上预训练的word2vec模型来获取类别名称的语义嵌入,然后构建语义图以捕获类别间的关系。Quan等人[113]通过结合半监督的Sammon嵌入算法[127]来对齐语义和视觉原型,从而加强了这种方法。
H. 少样本目标检测
目标检测是遥感(RS)中的一个重要任务,涉及到通过识别其边界框和类别标签来检测对象实例。由于近年来的大量研究努力,这个领域已经取得了重大进步,包括两阶段检测器,如Fast RCNN[40]和Faster R-CNN[123],一阶段检测器,如SSD[92],YOLO[122]和RetinaNet[89],以及最近提出的DETR变体[13],[200]。
I. 少样本/零样本语义分割
在语义分割领域,少样本学习方法使得在有限数量的标注图像下能够进行新类别的分割。最近的研究主要集中在两类方法,即参数匹配方法和原型方法。值得注意的是,开创性的工作PANet [154]通过引入一个原型对齐模块,为每个语义类别生成高度代表性的原型,并基于特征匹配进行查询对象的分割,从而在少样本分割领域实现了突破。Jiang等人[58]提出了一种用于遥感(RS)图像分割的少样本学习方法,但是少样本学习在RS图像分割中的应用仍然处于起步阶段。为了克服深度学习分割方法对数据的依赖,最近的研究[20],[187]已经探索了自我/半监督学习和弱监督学习,以减少对密集标注的需求。Chen等人[20]介绍了一种基于对比学习的RS图像少样本分割的半监督方法。Zhang等人[187]引入了一个用于跨场景高光谱图像分类的网络,该网络利用语言指导实现领域泛化。图15给出了该方法的概述。
3. 结论与未来趋势
计算机视觉和自然语言处理传统上被视为两个不同的领域,每个领域都有自己独特的挑战和应用。然而,ChatGPT的非凡成功最近在大型语言模型(AGI)领域的研究者中引发了巨大关注。这些模型将计算机视觉和自然语言处理的优势结合在一起,促进了更像人类的智能系统的开发,这些系统是基于VLMs构建的。在遥感(RS)的一些研究中,已经证明了VLMs在各种RS任务中比纯视觉模型更优越,包括图像标注、基于文本的图像生成、基于文本的图像检索、视觉问题回答、场景分类、语义分割和目标检测。虽然这些早期的尝试已经展示了将VLMs应用于遥感的成功,但对于大多数研究者来说,这仍然是一个新兴领域。因此,本文旨在提供一个全面的关于在遥感中应用视觉语言模型的综述,为其他研究者提供关于该领域背景和最近进展的快速理解。它还旨在鼓励在这个令人兴奋且重要的领域进行进一步的研究。在回顾了遥感中VLMs的文献后,我们发现了当前研究的一些限制。首先,用于训练VLMs的RS数据集数量有限,样本量远小于计算机视觉领域的数十亿图像数据集。其次,大多数现有的RS VLMs仍然使用经典的CNN和RNN作为图像和语言编码器,只有少数工作探讨了在计算机视觉中使用预训练的视觉变换器和大型语言模型,如GPT、BERT和Flan-T5。这可能限制了这些模型的特征学习能力。此外,从零开始训练这些VLMs需要大量的计算负担,尤其是对于拥有数十亿参数的大网络。这就需要在RS中为大型VLMs提供有效的模型微调技术。此外,由于光照条件、大气干扰和传感器噪声等因素的影响,RS数据可能会表现出高度的变化性。