基于物理的数值模型几十年来一直是大气科学的基础,提供了稳健的解决方案,但往往需要消耗大量的计算资源。深度学习(DL)模型作为气象学中的强大工具应运而生,能够通过学习复杂的依赖关系分析天气和气候数据,并在训练完成后提供快速的预测。尽管这些模型在天气预测中表现出色,往往超越传统的基于物理的方法,但它们仍面临着一些关键的挑战。本文呈现了近年来深度学习和基础模型在天气预测中的应用综述。我们提出了一种分类法,以训练范式为基础,对现有模型进行分类:确定性预测学习、概率生成学习以及预训练和微调。对于每种范式,我们深入探讨了其模型架构,解决了主要挑战,提供了关键见解,并提出了未来研究的有针对性的方向。此外,我们还探索了这些方法在实际应用中的表现,并提供了精选的开源代码库和广泛使用的数据集的总结,旨在将研究进展与实际应用相结合,同时推动采用先进人工智能技术进行天气预测的开放和可信的科学实践。相关资源可在 https://github.com/JimengShi/DL-Foundation-Models-Weather 获取。
1 引言
全球气候变化增加了极端天气事件的发生频率,如热浪、极寒天气、大量降雨、暴风雨和飓风,导致了干旱、洪水和空气污染等灾难。这些变化对多个领域产生了深远的影响,影响了人类健康和活动(Flandroy et al., 2018)、破坏了环境可持续性(Abbass et al., 2022)、扰乱了经济稳定性(Carleton 和 Hsiang, 2016),并改变了生态系统动态(Descombes et al., 2020)。在这种背景下,开发准确及时的天气预测对缓解这些影响和支持适应性策略至关重要。 基于物理的模型,包括大气环流模型(GCMs)(Ravindra et al., 2019)和数值天气预测模型(NWP)(Coiffier, 2011),一直是天气预测的基石。这些模型通过数值近似方法模拟未来天气情景,解决描述大气、陆地和海洋系统复杂物理动态的微分方程(Nguyen et al., 2023a)。尽管这些模型取得了显著进展,但它们仍然面临显著的局限性。首先,由于控制方程的高维性和非线性特征,它们计算开销巨大(Ren et al., 2021)。其次,基础方程常常依赖于简化的假设来描述大气动态,这限制了它们捕捉复杂、少见过程的能力(Palmer et al., 2005)。最后,这些基于物理的模型通常产生基于初始条件的确定性预报,尽管初始条件扰动已被用来表示输入的不确定性,但它们仍未能明确捕捉天气演变中的模型不确定性(Bülte et al., 2024)。 自回归积分滑动平均(ARIMA)是一种广泛应用于天气预测的统计模型(Box et al., 2015)。非季节性ARIMA模型分析历史数据中的模式,但无法处理季节性,而季节性ARIMA扩展了这一框架以考虑常规周期,使其能够有效地处理降水或温度等变量(Lai 和 Dzombak, 2020;Khan et al., 2023)。然而,ARIMA模型也存在局限性,包括难以捕捉非线性关系、对离群值敏感以及需要谨慎选择参数。 贝叶斯非参数非齐次隐马尔可夫模型是另一种已被研究用于预测每日降水(Cao et al., 2024a)和厄尔尼诺-南方涛动(ENSO)影响(Zhang et al., 2024b)的统计方法。然而,这些方法通常应用于单变量或低维度的响应。 近年来,数据驱动的机器学习(ML)和深度学习(DL)模型在天气和气候建模中的应用逐渐增多,展现了在精度、计算效率和不确定性量化方面的显著进展(Chen et al., 2023d;Nguyen et al., 2023b)。例如,确定性模型如Pangu(Bi et al., 2023)和GraphCast(Lam et al., 2022)在中期(10天)全球天气预测中取得了最先进的性能,在准确性上超过或与传统方法持平,同时大幅降低了计算成本(高达三个数量级)。然而,由于它们是通过最小化逐点损失函数进行训练,因此它们的预测往往较为模糊。为了克服这一限制,概率生成模型作为强有力的天气预测工具应运而生,同时实现了这些预测中的不确定性量化。它们将天气预测视为基于必要约束条件的概率抽样(即生成)。像CasCast(Gong et al., 2024)和Gencast(Price et al., 2023)这样的模型利用概率扩散技术进行降水预报和天气预测任务,提供了高质量的预测和经过校准的不确定性估计。 近年来,基础模型作为一种新兴范式在气候和天气建模中获得了广泛关注(Bodnar et al., 2024;Schmude et al., 2024)。这些模型在大量历史天气数据集上进行预训练,以学习可泛化和综合的知识,然后可以针对不同的下游任务进行微调(Chen et al., 2023f)。基础模型具有两个关键优势:(1)能够从大规模数据中学习稳健且可迁移的天气表征;(2)具有灵活性,可以无需从零开始训练特定任务的模型,即可适应下游应用(Miller et al., 2024;Zhu et al., 2024b)。 随着深度学习在天气和气候科学中的迅速发展,系统且最新的综述对于整合知识和引导未来研究至关重要。尽管近年来已经有若干综述文章发布,但每篇文章的关注点有所不同。Ren et al. (2021) 回顾了用于天气预测的深度学习模型,重点讨论了其架构设计。Molina et al. (2023) 总结了深度学习在气候建模中的应用,涵盖了特征检测、极端天气预测、降尺度和偏差修正。此外,一些综述文章(Fang et al., 2021;Materia et al., 2023)集中讨论了特定场景下的天气预报深度学习技术,如极端天气事件。Mukkavilli et al. (2023) 讨论了各种气象应用中最先进的深度学习模型,突出它们在不同空间和时间尺度上的有效性。Chen et al. (2023f) 根据数据模态(例如,时间序列、文本)及其应用对天气和气候科学中的深度学习模型进行了分类。 不同于现有的综述,本文从训练范式的角度回顾文献,并提供了一个更广泛的未来研究方向讨论。我们的贡献包括: