摘要遥感 (RS) 是一种关键技术,用于观测、监测和解读我们的星球,广泛应用于地球科学、经济学、人道主义等领域。虽然人工智能 (AI),特别是深度学习,在遥感领域取得了显著进展,但开发更智能的遥感系统仍面临诸多挑战,包括地球环境的复杂性、多样的传感器模式、独特的特征模式、不同的空间和光谱分辨率以及时间动态等问题。同时,随着大型基础模型 (Foundation Models, FMs) 的最新突破,由于其卓越的泛化能力和零样本迁移能力,AI 在多个领域的潜力得到了扩展。然而,它们的成功主要局限于自然数据,如图像和视频,而对于各种非光学模式的遥感数据表现较差,甚至失败。这激发了开发遥感基础模型 (RSFMs) 的兴趣,以应对覆盖地表、大气和海洋等地球观测 (EO) 任务的复杂需求。本综述系统性地回顾了新兴的 RSFMs 领域。首先,概述了它们的动机和背景,随后介绍了其基础概念。接着对现有的 RSFM 研究进行分类和评审,包括它们的数据集及其在视觉基础模型 (VFMs)、视觉-语言模型 (VLMs)、大型语言模型 (LLMs) 等方面的技术贡献。此外,我们基于公开数据集对这些模型进行了基准测试,讨论了现有的挑战,并提出了这一快速发展的领域未来的研究方向。

关键词—基础模型、遥感、地球科学、多模态、视觉识别、视觉-语言模型、大型语言模型、地球观测、人工智能。

1 引言

深度学习的快速发展为遥感 (RS) 和各种地球观测 (EO) 应用带来了显著进展。然而,当前的大多数模型依赖于明确设计的、任务特定的学习目标。这种方法需要大量的人力进行数据集收集和标注,同时也需要大量的计算资源进行模型训练和评估。此外,这些模型在不同任务之间的泛化和迁移能力有限,从而限制了 RS 系统的广泛采用。RS 数据来自多种传感器和平台,具有大规模、复杂、动态和异构的特性。如何以协同、稳健和多功能的方式准确智能地解读 RS 数据,仍是推动 RS 解读系统进步的一个关键但尚未充分探索的挑战。

随着深度学习的持续进展,一种革命性趋势正朝向大型基础模型 (Foundation Models, FMs) 演进,定义为“任何基于广泛数据训练(通常使用大规模自监督学习)并能够适应多种下游任务的模型(例如,通过微调)”[1]。FMs 包括大型语言模型 (LLMs)视觉基础模型 (VFMs)视觉-语言模型 (VLMs),在不同任务上展示了显著的泛化能力和小样本迁移能力。这一转变标志着从单一用途模型向通用模型的过渡,以及从监督预训练向自监督预训练的过渡,大大减少了训练资源的需求,同时扩展了模型的应用范围。

然而,这些进展主要集中在自然数据领域,如图像和文本,面对分布外领域如 RS 时常面临重大挑战。例如,RS 与自然图像的根本区别——如传感器模式、捕捉视角、空间分辨率、光谱带以及时间规律性——阻碍了 FMs 在 RS 应用中的直接应用。尽管存在这些挑战,FMs 在自然领域的成功为遥感基础模型 (RSFMs) 的开发提供了有希望的启示,RSFMs 在利用大规模地理空间数据、建模复杂动态地球表面、提高数据效率、扩展应用范围、增强任务性能和减少碳足迹方面显示出巨大潜力。

相比于一般领域的 FMs,开发 RSFM 面临几大关键挑战:(1) 自然数据与 RS 数据之间的显著领域差异;(2) 缺乏用于 RSFM 预训练的大规模数据集;(3) 缺少适合 RSFMs 的深度架构;(4) 需要应对不同于自然领域通用 FMs 的独特 RS 应用。为了应对这些挑战,近年来不断有努力致力于开发先进的 RSFMs,并在 RS 领域内更好地整合各种 FMs,如图 1 所示。

尽管取得了快速进展,RSFMs 领域仍然缺乏一篇全面的综述,提供对这一新兴且多方面领域的深入概述。本文旨在弥补这一空白,通过呈现对 RSFMs 最新进展的广泛调查,涵盖学习范式、数据集、技术方法、基准测试以及未来研究方向。如图 2 所示,我们根据模型类型将现有方法分为三大类:用于 RS 的 VFMs、用于 RS 的 VLMs,以及其他 RSFMs,如 LLMs 和生成式 FMs。这些类别将在后续章节中详细回顾。 本文的主要贡献有三方面:首先,它对 RSFMs 的最新进展进行了全面系统的回顾。根据我们所知,这是首篇跨越不同类型 FMs 的综述,涵盖了这一快速发展的领域。其次,它对各种传感器模式和任务下应用的 RSFMs 进行了基准测试和深入分析。第三,它确定了多个研究挑战,并提出了 RSFMs 领域的潜在研究方向。

本综述的结构如下:第二部分介绍 RSFMs 的背景知识,包括学习范式、常见的 RS 传感器模式以及相关综述。第三部分探讨了 RSFMs 的基础,涵盖了深度网络架构和典型的 RS 解读任务。第四、第五和第六部分系统性地回顾了用于 RS 的 VFMs、用于 RS 的 VLMs 及其他类型的 RSFMs 的方法。第七部分总结并比较了现有方法在多个基准数据集上的性能。最后,第八部分提出了 RSFMs 的几个有前途的未来研究方向。

成为VIP会员查看完整内容
29

相关内容

《基于扩散模型的条件图像生成》综述
专知会员服务
33+阅读 · 10月1日
《Mixup数据增强及其扩展》综述
专知会员服务
29+阅读 · 9月15日
用于疾病诊断的大型语言模型:范围综述
专知会员服务
22+阅读 · 9月8日
伪装目标检测及其扩展的综述
专知会员服务
20+阅读 · 9月1日
西工大最新《多模态大型语言模型》全面综述
专知会员服务
66+阅读 · 8月6日
贝叶斯迁移学习: 迁移学习的概率图模型概述
专知会员服务
67+阅读 · 2021年10月17日
基于深度学习的图异常检测技术综述
专知会员服务
83+阅读 · 2021年7月28日
【长文综述】基于图神经网络的知识图谱研究进展
深度学习自然语言处理
14+阅读 · 2020年8月23日
事件知识图谱构建技术与应用综述
专知
23+阅读 · 2020年8月6日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
国家自然科学基金
10+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
147+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关VIP内容
《基于扩散模型的条件图像生成》综述
专知会员服务
33+阅读 · 10月1日
《Mixup数据增强及其扩展》综述
专知会员服务
29+阅读 · 9月15日
用于疾病诊断的大型语言模型:范围综述
专知会员服务
22+阅读 · 9月8日
伪装目标检测及其扩展的综述
专知会员服务
20+阅读 · 9月1日
西工大最新《多模态大型语言模型》全面综述
专知会员服务
66+阅读 · 8月6日
贝叶斯迁移学习: 迁移学习的概率图模型概述
专知会员服务
67+阅读 · 2021年10月17日
基于深度学习的图异常检测技术综述
专知会员服务
83+阅读 · 2021年7月28日
相关基金
国家自然科学基金
10+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员