大模型如何预测天气？悉尼科技大学等最新《天气和气候数据理解的基础模型》综述

随着人工智能（AI）的迅速发展，地球和大气科学领域越来越多地采用数据驱动模型，这些模型由深度学习（DL）的持续进步所推动。具体来说，DL技术被广泛用于解码地球系统的混沌和非线性特征，并通过理解天气和气候数据来应对气候挑战。最近，通过DL在更窄的时空尺度内的特定任务上取得了尖端性能。大型模型的兴起，特别是大型语言模型（LLMs），使得微调过程产生了显著的成果，从而推动了通用AI的发展。然而，我们仍在探索为天气和气候制定通用AI的初期阶段。在这篇综述中，我们提供了一个全面、及时的概览，专注于为天气和气候数据量身打造的最新AI方法论，特别关注时间序列和文本数据。我们的主要内容涵盖四个关键方面：天气和气候数据的类型、主要模型架构、模型范围和应用，以及天气和气候的数据集。此外，关于为天气和气候数据理解创建和应用基础模型，我们深入探讨了该领域当前的挑战，提供关键见解，并提出未来研究的详细途径。这种全面的方法为从业者提供了在这个领域取得重大进展所需的知识。我们的综述包含了关于大型、数据驱动模型在天气和气候数据理解方面的最新研究突破，强调了坚实的基础、当前的进展、实际应用、关键资源和未来研究的机会。

概念1. 天气和气候是两个不同的概念，它们在空间和时间尺度、可变性和可预测性方面有显著的差异。这两者之间的不同可以如下阐述： * 时间尺度。天气涉及大气状况的即时状态，通常在短期时间框架内。相反，气候代表长期天气模式的统计总结。 * 空间尺度。天气代表特定位置的大气状况，而气候则包括对一个地区典型天气模式的全面总结。 * 可变性。天气表现为快速和频繁的变化，而气候变化速度较慢，包括长期天气模式的转变。 * 可预测性。天气预报侧重于预测未来几天或更短时间尺度内的天气状况。相比之下，气候预测旨在预测未来几个月到几十年的气候趋势。

气候变化描述了全球温度和天气模式在长期内的显著变化。目前，我们的星球正经历着极端自然现象的激增，如干旱[1]、[2]，洪水[1]，地震[3]，热浪[4]和强降雨[5]，这些现象由不断加剧的气候变化所推动。加剧这些挑战的是全球变暖和海平面下降对生态系统的惊人威胁[6]、[7]。鉴于本世纪预计的地表温度增加，我们预见这些极端现象的严重程度和频率将加剧[8]。利用先进的气候建模和预测技术，这些技术集成了大量的大气和地表变量 - 包括大气状况、洋流、陆地生态系统和生物圈相互作用 - 可以增强我们对气候变化的理解[9]、[10]。这些见解可以指导定制缓解策略的制定[11]。长期准确的海平面变化预测可以加强沿海城市的城市规划和灾害准备工作[12]、[13]、[14]。短期内，降雨、温度和湿度的精确预测可以提高包括农业规划和交通调度在内的人类活动的安全性[15]、[16]、[17]。传统上，一般环流模型（GCMs）[18]和数值天气预报模型（NWPs）[19]、[20]、[21]一直是研究气候变化趋势和预测未来天气和气候情景的首选工具。这些模型融合了主要的地球系统组成部分，包括大气、地表和海洋，以模拟地球系统的多维动态。它们通过复杂的物理方程式，如大气动力学，确定这些组成部分之间的潜在非线性关系，以在广泛的物理参数范围内生成预测[22]。然而，尽管它们已经相当成熟，数值受限的天气预报模型仍面临许多挑战和限制。其中之一是它们对地方地理特征的过于简化的表现[23]，因为它们通常无法捕捉到对区域天气和气候模式产生关键影响的地方地形的复杂细节。另一个障碍是有效地整合来自不同来源的观测数据，如气象站、雷达和卫星[8]。传统模型通常难以将这些具有不同空间和时间分辨率的数据纳入其建模框架。此外，它们需要大量的计算资源来管理众多的物理限制[24]。地球系统的复杂性和规模要求进行大量的计算，给计算能力和效率带来挑战。 人工智能技术的快速发展为天气和气候建模引入了成本效益高、直接且简化的解决策略。特别是，机器学习（ML）和深度学习（DL）技术可以识别天气和气候数据中的潜在趋势表示，从而绕过对复杂物理关系的需求。最初，鉴于ML技术相较于大规模、长时间的物理模型的有限能力，它们被少量用于短期、局部的天气和气候条件预测。然而，过去十年目睹了数据驱动深度学习方法在天气和气候研究中的应用呈指数级增长，这得益于全球天气和气候数据的爆炸性扩展[25]、[26]。依托丰富的数据资源和计算技术的进步[27]、[28]，这些模型正在革命性地改变气候科学[29]。利用大量数据，深度学习模型揭示了隐藏在气候变量中的复杂非线性关系，从而以更高的精确度捕捉气候系统的动态性和复杂性[30]、[31]。然而，这些模型通常为特定任务而设计，并使用特定格式的数据进行训练，如区域天气预测或微观尺度的降尺度。训练数据来源的表现方式差异导致了数据驱动深度学习模型在理解天气和气候数据方面的过度分化功能。因此，开发能够微调以模拟全球天气和气候系统的通用气候模型成为一个重大挑战。

近期大型模型的出现和迅速发展在各个领域取得了显著成就，包括自然语言处理（NLP）、计算机视觉（CV）[32]、机器人学[33]以及涵盖生命科学的一系列跨学科领域[34]、[35]、[36]、[37]、[38]。特别是在NLP领域，大型模型或大型语言模型（LLMs）正在迅速发展，它们在大规模语料库上进行训练，并针对各种下游任务进行微调[39]、[40]、[41]。在计算机视觉领域，大型视觉模型经过大量自然图像的训练[42]、[43]、[44]，展示出卓越的零样本能力[45]、[46]。这些模型在跨任务中的卓越表现源自于它们庞大的参数数量和大规模的预训练数据。例如，GPT-3[47]、[48]拥有近120倍于GPT-2[49]的参数，使其能够从更少的样本中更强大地学习，而GPT-4[50]的参数不到GPT-3的十倍，但在文本生成和图像理解方面表现出色。LLMs的迅速崛起重新定义了深度学习的前进道路，尽管在无监督/半监督和迁移学习等长期发展领域仍然存在。一个值得注意的例子是视觉-语言大型模型[46]、[51]、[52]、[53]，如CLIP[46]，它在众多自然图像-文本对上进行训练，并针对如图像分割[54]、[55]、[56]和视频字幕生成[57]、[58]等任务进行微调，取得了有希望的结果。最近，大型模型在语音[59]、[60]、物理学[61]和数学分析[62]等领域的扩展催生了基础科学和专业领域的进步。

预训练的基础模型的突破性成功已经显著推动了NLP和CV领域更接近通用AI的实现。这一进步引发了一个有趣的问题：预训练的基础模型的成功已经使NLP和CV领域朝着实现通用AI迈出了有意义的一步，这不仅让人好奇：是否有可能开发一个用于天气和气候数据理解的通用基础模型，有效地解决相关任务的众多问题？基于预训练模型理论，CLIMAX [25] 提出了一种开发天气和气候基础模型的创新方法。它利用变换器预训练大规模天气和气候数据，产生一个灵活的基础模型，擅长短期至中期预测、气候预测和降尺度。PANGU-WEATHER [63] 和 W-MAE [64] 通过使用大量数据对全球气候系统进行建模，展示了强大的气候预测能力。然而，开发大规模、通用气候模型的追求面临着重大障碍。一个主要挑战是缺乏大型、多样化和高质量的训练数据集。现有数据集（详情见表4）在不一致的测量、空间-时间偏差和有限的功能性方面存在问题，阻碍了全面、多用途大规模基础模型的进展。此外，这些模型的计算需求增加了另一个复杂性维度，所需的基础设施在资源有限的环境中可能无法实现。理想情况下，一个天气/气候基础模型应该能够无缝处理多源观测，并纳入地理特征的详细表示，以生成更精确的天气和气候趋势模拟。不幸的是，这仍然是目前天气和气候基础模型的一个基本未开发领域。此外，这些模型的可解释性，通常被视为“黑匣子”，是一个重要的关注点。在天气和气候相关任务中，错误的预测可能会对生态系统和社会造成严重破坏，因此特别强调了对可解释性的需求[36]、[65]、[66]。尽管在理解天气和气候数据方面取得了显著进步和潜力，但如上所述，开发大规模基础模型所面临的独特挑战，需要集中研究（详情见第9节）。这强调了对这一新兴领域进展的全面审查的需求。在本文中，我们对专门针对天气和气候数据设计的数据驱动模型进行了全面审查。我们的综述涵盖了各种数据类型、模型架构、应用领域和代表性任务的广泛大型基础模型/特定任务模型。这篇评论扩大了从天气和气候数据中得出的见解的范围，鼓励新的策略，并促进在天气和气候中大型模型的跨应用。通过利用DL在大型模型中的力量，我们旨在揭示复杂的气候模式，增强预测，并加深对气候系统的理解，从而使社会能够更有效地适应气候变化带来的挑战。我们的贡献总结如下： * 首次全面且现代的综述。据我们所知，本文是首次全面综述针对天气和气候数据理解的大型和特定任务模型的最新发展，涵盖时间序列、视频流和文本序列。我们提供了一个深入和当前的全景，涵盖了该领域的广泛光谱，同时深入探讨了不同方法论的细微差别，为读者提供了对这个领域的全面和最新的理解。 * 系统化和深入的分类。我们介绍并讨论了一个有组织和详细的分类，将现有相关研究划分为两大类：大型气候基础模型和特定任务气候模型。此外，我们进一步根据模型架构对它们进行分类，包括RNN、变换器、GAN、扩散模型和图神经网络。基于模型的应用领域和特定任务，进一步进行划分，并对这些任务定义进行详细解释。这种多维分类为读者提供了一个连贯的路线图。 * 丰富的资源汇编。我们已经收集了一大批与天气和气候科学领域相关的数据集和开源实现。每个数据集都附有详尽的结构描述、相关任务和直接超链接，以便快速访问。这个编译作为未来研究和开发努力的领域中的宝贵资源。 * 未来展望和研究机会。我们已经勾画了几个未来探索的有希望的轨迹。这些观点跨越了各个领域，包括数据后处理、模型架构、可解释性、隐私和训练范式等。这篇论述为读者提供了对该领域当前状态和未来探索可能途径的复杂理解。设计见解。我们讨论并指出了有希望的天气和气候基础模型的关键设计元素。这些设计组件包括时间和空间尺度的选择、数据集选择、数据表示和模型设计、学习策略和评估方案。遵循这个系统化的设计流程使从业者能够快速理解设计原则并构建强大的天气和气候基础模型，从而促进天气和气候领域的迅速发展。

文章组织。本综述的其余部分结构如下：第2节阐述了我们的综述与其他相应研究之间的区别。第3节为读者提供关于基础模型、天气和气候数据的基本描述以及相关任务的基本知识。第4节详细阐述了天气和气候任务的关键模型架构。第6节，我们介绍了目前用于天气和气候任务的主要模型分类的概要，包括气候基础模型和特定任务模型。该节在深入探讨个别方法论的复杂性之前，提供了该领域的整体视图。第5节简洁地介绍了气候基础模型和特定任务模型，并根据不同的模型架构进一步细分特定任务模型。随后，第7节进行了对特定天气和气候任务的数据驱动深度学习模型的广泛探索。考虑到缺乏统一和全面的天气和气候数据集索引，第8节提出了一套详尽的数据集资源和介绍，旨在为读者提供便利和效率。第9节概述了目前阻碍天气和气候基础模型发展的挑战，以及该领域未来的潜在方向。第10节提出了构建天气和气象基础模型的潜在蓝图，帮助从业者进行思考和执行，并促进气候基础模型的发展。最后，第11节对综述内容提供了总结和结论性评论。

天气和气候的基础模型

蓬勃发展的基础模型在NLP [47]、[82]、[200]和CV [45]、[46]领域已激发了对天气和气候数据理解基础模型的研究兴趣。通过预训练策略创建的大型基础模型可以显著提高基于AI的气候模型的泛化能力，并可以针对特定的下游任务进行微调。这类模型的预训练需要大规模序列数据，这不是通常从普通时间序列数据中获取的。考虑到计算效率和对及时气候预测的需求，Pathak等人提出了FOURCASTNET [136]，这是一种基于视觉变换器和自适应傅里叶神经网络运算符（AFNO）[201]的气候预训练基础模型，用于高分辨率预测和快速推理。其训练过程包括基于预训练模型的自监着预训练和自回归微调。PANGU-WEATHER [63]，一个利用3D地球特定变换器的数据驱动模型，以其快速、精确的全球预测和卓越性能而闻名。它根据当前状态预测随时间变化的大气状态，当前状态由上空五个变量和四个地表变量在0.25°水平网格上的13个垂直层描述。另一方面，CLIMAX [25] 通过其基于变换器的完全监督预训练，将基础建模概念引入天气预测。它提出变量消歧和变量聚合策略，用于合并和揭示不同天气变化在不同高度的潜在关系，为适应包括全球/区域/季节性预测、气候绘制和降尺度任务在内的多样化下游任务提供了有希望的灵活性。FENGWU [138] 以独特设计的深度学习架构从多模态、多任务角度解决中期预测问题。它具有模型特定的解码器和跨模态融合变换器，在不确定性损失的监督下，以区域适应的方式平衡不同预测器的优化。鉴于上述大型模型是通过完全监督的方式训练的，W-MAE [64] 使用基于掩码自动编码器（MAE）[202]、[203]的方法，实施天气预测模型的无监督训练，这可以通过各种数据源微调用于下游任务。MetePFL [24] 和 FedWing [154] 还提出了基于提示的联邦学习[204]，用于训练大型基础模型，大大降低了跨区域协作模型训练的成本，同时保护数据隐私。LLMs的快速发展导致处理天气和气候任务不再局限于视觉或时间序列模型。基于LLMs的OCEANGPT [197] 提出了处理广泛海洋相关任务的方法论。除了用于预测和模拟的基础模型之外，CLIMATEBERT [195] 是一种用于处理气候相关文本的基于NLP的基础模型。它在新闻文章、研究论文和公司气候报告等多种来源的200多万段气候相关段落上进行训练[205]。结论

我们提供了一个全面和最新的针对分析天气和气候数据的数据驱动模型综述。目的是通过系统组织的评估相关模型，为这个不断发展的学科提供一个新视角。我们提炼出每个类别中最显著的方法论，研究它们各自的优点和缺点，并提出未来探索的可行轨迹。这篇综述旨在作为一个刺激，激发持续的兴趣并培养对天气和气候数据理解领域数据驱动模型研究的持久热情。

成为VIP会员查看完整内容