摘要——视觉语言建模(Vision-Language Modeling, VLM)旨在弥合图像与自然语言之间的信息鸿沟。在先进行大规模图文对预训练、再在任务数据上进行微调的全新范式下,遥感领域中的VLM取得了显著进展。所产生的模型得益于广泛通用知识的融入,在多种遥感数据分析任务中展现出强大的性能。此外,这些模型还具备与用户进行对话式交互的能力。

本文旨在为遥感领域的研究者提供一份及时且全面的综述,系统回顾基于该两阶段范式的VLM研究进展。具体而言,我们首先对遥感中的VLM进行分类梳理,包括对比学习、视觉指令微调以及文本条件图像生成。针对每一类方法,我们详细介绍了常用的网络结构与预训练目标。 其次,我们对现有研究进行深入评述,涵盖对比学习类VLM中的基础模型与任务适配方法,指令微调类VLM中的架构改进、训练策略与模型能力,以及生成式基础模型及其代表性的下游应用。 第三,我们总结了用于VLM预训练、微调与评估的数据集,分析其构建方法(包括图像来源与描述生成方式)与关键属性,如数据规模与任务适应性。 最后,本文对未来研究方向提出若干思考与展望,包括跨模态表示对齐、模糊需求理解、基于解释的模型可靠性、持续扩展的模型能力,以及具备更丰富模态与更大挑战的大规模数据集。 关键词——遥感,视觉语言建模,对比学习,视觉指令微调,扩散模型

一、引言

遥感中的视觉语言建模(Vision-Language Modeling, VLM)旨在弥合遥感图像与自然语言之间的信息鸿沟,促进对遥感场景语义(如地物属性及其关系)的深入理解,并实现与智能遥感数据分析模型或方法的更自然交互方式 [17],[164]。自从遥感领域引入图像描述 [62]、视觉问答 [54]、文本-图像(或图像-文本)检索 [166] 以及基于文本的图像生成 [165] 等任务以来,受益于深度学习的发展,VLM在遥感领域取得了显著成果。 早期的VLM研究主要强调模型结构的精心设计,并通过从零开始在小规模数据集上进行监督训练。例如,在图像描述任务中,许多研究 [167]–[170] 试图将卷积神经网络(如VGG [171]和ResNet [172])与序列模型(如LSTM [173]和Transformer [174])有效结合,并在UCM-captions [62]与Sydney-captions [62]等数据集上进行训练。在这一经典的构建范式下,深度模型通常在测试集上表现良好,但在大规模部署中效果欠佳。此外,尽管这些模型能够描述图像内容,但在处理图像相关问答等任务时能力不足,限制了其在多样化场景中的应用。 近年来,预训练-微调的新范式为上述挑战提供了有前景的解决方案。其核心思想是,首先在大规模图文数据上进行预训练,使模型能够学习涵盖广泛视觉与文本概念及其对应关系的通用知识,然后在特定任务数据上进行微调。已有研究表明,通用知识的融入不仅提升了模型在单一任务中的泛化能力 [7],[8],还增强了模型在多种下游任务中的适应性与多样性 [1],[3]。因此,该新范式下的视觉语言建模已成为遥感领域的研究热点。迄今为止,相关研究取得了显著进展,如图1所示,主要体现在以下几个方面:

基于对比学习的方法(如GeoRSCLIP [7]、SkyCLIP [8]和RemoteCLIP [2]),在跨模态任务与零样本图像理解任务中取得了重要突破;

学习图文间隐式联合分布的方法(如RS-SD [7]、DiffusionSat [38]和CRSDiff [39]),支持通过文本提示生成图像;

视觉指令微调方法(如GeoChat [3]、LHRSBot [9]和SkySenseGPT [11]),在遥感数据分析中表现出更强的性能、多样化的能力与对话交互能力。

尽管已有诸多成果,但VLM仍被公认为一个尚未完全解决的研究难题。目前的模型仍无法达到遥感专家在遥感数据处理方面的水平。为推动该领域进一步发展,已有若干综述论文试图系统梳理遥感中的视觉语言建模。例如,Li等人 [17] 从应用视角出发总结了相关模型,并提出潜在研究方向,但其主要聚焦于视觉基础模型和早期工作;Zhou等人 [16] 则回顾了近期研究进展,但缺乏对关键设计的深入剖析,而这些设计对于未来研究的启发具有重要意义。此外,作为VLM研究的前提条件,相关数据集在现有综述中也未受到充分关注。 因此,本文旨在针对遥感领域中的预训练-微调范式,提供一份及时且全面的文献综述,重点包括:

对遥感VLM方法的分类,详细介绍各类方法中常用的网络结构与预训练目标;

对基于对比、指令与生成三类VLM方法的最新进展进行总结,重点分析其关键设计与下游应用;

对用于预训练、微调与评估的数据集进行梳理,分析其构建方法与关键特性;

讨论当前挑战与未来可能的研究方向。

图2展示了本文的整体框架。

成为VIP会员查看完整内容
0

相关内容

用于自动驾驶的生成式人工智能:前沿与机遇
专知会员服务
16+阅读 · 5月16日
视觉中的生成物理人工智能:综述
专知会员服务
31+阅读 · 1月26日
多模态可解释人工智能综述:过去、现在与未来
专知会员服务
41+阅读 · 2024年12月20日
【长文综述】基于图神经网络的知识图谱研究进展
深度学习自然语言处理
14+阅读 · 2020年8月23日
论文浅尝 | GraphIE:基于图的信息抽取框架
开放知识图谱
17+阅读 · 2019年6月2日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
计算机视觉方向简介 | 基于单目视觉的三维重建算法
计算机视觉life
31+阅读 · 2019年4月9日
深度学习图像超分辨率最新综述:从模型到应用
炼数成金订阅号
65+阅读 · 2019年2月20日
实战 | 基于深度学习模型VGG的图像识别(附代码)
七月在线实验室
12+阅读 · 2018年3月30日
论文浅尝 | 基于置信度的知识图谱表示学习框架
开放知识图谱
24+阅读 · 2018年2月27日
讲堂|郑宇:多源数据融合与时空数据挖掘(下)
微软研究院AI头条
17+阅读 · 2017年4月18日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Arxiv
169+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
461+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
168+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关资讯
【长文综述】基于图神经网络的知识图谱研究进展
深度学习自然语言处理
14+阅读 · 2020年8月23日
论文浅尝 | GraphIE:基于图的信息抽取框架
开放知识图谱
17+阅读 · 2019年6月2日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
计算机视觉方向简介 | 基于单目视觉的三维重建算法
计算机视觉life
31+阅读 · 2019年4月9日
深度学习图像超分辨率最新综述:从模型到应用
炼数成金订阅号
65+阅读 · 2019年2月20日
实战 | 基于深度学习模型VGG的图像识别(附代码)
七月在线实验室
12+阅读 · 2018年3月30日
论文浅尝 | 基于置信度的知识图谱表示学习框架
开放知识图谱
24+阅读 · 2018年2月27日
讲堂|郑宇:多源数据融合与时空数据挖掘(下)
微软研究院AI头条
17+阅读 · 2017年4月18日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员