摘要—基础模型已经革新了人工智能,在性能上设定了新的基准,并在广泛的视觉和语言任务中实现了变革性能力。然而,尽管时空数据在交通、公共卫生和环境监测等关键领域中广泛存在,时空基础模型(STFMs)仍未取得相应的成功。本文提出了时空基础模型的未来愿景,阐述了其基本特征以及广泛应用所需的泛化能力。我们对当前的研究状态进行了批判性评估,识别出与这些理想特征相比的研究空白,并突出了阻碍其进展的关键挑战。最后,我们探讨了推动研究向有效且广泛适用的时空基础模型发展的潜在机会和方向。
I. 引言 深度学习的出现显著推进了各类应用中的最先进性能。在近几年,基础模型(FMs)[8]——在大规模和广泛数据上预训练的大型神经网络——凭借其卓越的“泛化”能力,尤其在语言和视觉任务中,通过迁移学习的概念,取得了变革性的成功。然而,基础模型尚未在涉及时空数据的任务中取得类似的影响。时空(ST)数据涵盖了具有空间和时间维度的各种数据,广泛存在于许多领域,包括城市分析 [37]、[45]、[50]、[53]、[58]、天气预报 [9]、[30]、[38]、气候科学 [16]、[18]、[31]、[54]、环境监测 [1]、[4]、[26]、[51]、农业 [10]、[14]、[34]、[55]、公共卫生 [36]、[42]、[49]、[60]、[64]等。随着时空数据从不同来源不断增长,其可行性和潜力也在增加,时空基础模型(STFMs)有望在不同领域学习共享模式,提高效率,特别是对于数据匮乏的应用,增强其泛化能力。然而,由于时空数据的若干特性,大大增加了STFM学习的复杂性,导致进展缓慢。此外,现有的研究高度分散,主要依赖于特定的应用,这阻碍了朝着一种真正通用的时空基础模型(STFM)的进展,而这种模型可以与现有的语言和视觉模型相媲美。
本文提出了时空基础模型的未来愿景,并探讨其在各类时空应用中推进最先进性能的潜力。我们概述了广泛适用的时空基础模型所必需的关键泛化能力,并分析了它们发展的主要挑战和障碍。我们对当前的研究状态进行了批判性评估,识别出与这些理想特征相比的研究空白。我们还探讨了通过有针对性的研究和创新推动进一步发展的机会。总结来说,本文的主要贡献如下:
我们通过识别时空基础模型的关键理想能力,提出了时空基础模型发展的方向。 我们审视了时空基础模型研究中的现有努力,并根据这些理想评估了当前的能力。 我们考虑了进一步研究的主要途径和机会,以提高性能和适用性。 II. 基础知识 A. 时空数据 时空数据是涉及空间和时间维度的任何类型数据。最抽象地说,它可以被理解为一组时间序列,每个序列都与特定的空间位置相关联。我们将时空序列表示为 X∈RV×N×TX \in R^{V \times N \times T}X∈RV×N×T,其中 VVV 代表变量或特征的数量,NNN 是空间位置的数量(通常但不一定由传感器或测量设备的数量决定),TTT 是时间步数。在实际应用中,时空数据有多种不同的格式或结构,不同的格式适合不同的应用。图1对四种类型的时空数据进行了分类,并提供了其应用示例。下面我们将详细描述每种类型的时空数据。
栅格数据:栅格数据在一个规则且固定的空间网格上结构化,具有高度 HHH 和宽度 WWW。在这种格式下,NNN 等于网格中单元格的总数,即 N=H×WN = H \times WN=H×W。需要注意的是,每个单元格中的特征可能并不对应于物理系统中的唯一数据记录或传感器,这取决于物理和后勤的限制。相反,原始测量值可以通过各种插值技术转换为所需分辨率的栅格数据。栅格数据广泛应用于时空应用领域,如交通、天气与气候分析、医学成像、遥感等。视频数据也可以视为一种特殊形式的栅格数据,其中每个单元格代表一个像素,并在每个时间步包含自己的RGB值。 点参考数据:点参考数据与栅格数据类似,不同之处在于数据测量的空间位置可能随着时间步的变化而变化。例如,气象气球收集的气候数据,由于气流的影响,气象气球随时间移动,或者漂浮在海面上的浮标传感器记录的海表温度。在这种情况下,变化的空间位置成为一个额外的变量,必须在每个时间步进行追踪和记录,从而增加了数据结构的复杂性。 轨迹数据:轨迹数据代表了物体在空间中随时间变化的路径,包含一对地理坐标和时间戳:{li,ti}{ l_i, t_i }{li,ti}。它通常应用于与移动相关的领域,例如行人或车辆运动跟踪。在处理多个移动物体时,通常将轨迹数据分为离散的桶,其中特征表示在特定空间边界和特定时间段内的轨迹数量,这与栅格数据非常相似。 事件数据:事件数据通过一组元组 {ei,li,ti}{ e_i, l_i, t_i }{ei,li,ti} 特征化,其中每个元组对应一个特定类型的事件 eie_iei,并在位置 lil_ili 和时间 tit_iti 记录。事件通常较为稀有,例如犯罪或交通事故。因此,事件数据通常比其他形式的时空数据更加稀疏,大部分条目为零。由于这种稀疏性,事件数据的建模和分析需要采用专门的技术。 正如 [20] 所述,时空数据具有两个关键特性。第一个特性是异质性,意味着时空模式可能会在空间(从一个位置到另一个位置)和时间(从一个时间段到另一个时间段)范围和尺度上有所不同。异质性是一个特别具有挑战性的特性,因为它违反了所有数据样本都是独立同分布的假设,即来自同一概率分布。第二个特性是自相关性,反映了相近时间和空间的测量往往遵循相似的分布,这里的相近既可以理解为空间上的接近,也可以是时间上的接近。这一点在托布勒的地理第一定律中得到了很好总结:“一切都是相互关联的,但近的事物比远的事物更相关。”
B. 时空数据挖掘 时空数据挖掘涉及学习建模时空数据中的空间和时间模式。近年来,结合卷积和递归模块的神经网络在捕捉空间和时间依赖性方面表现出了特别的成功。CNN-LSTMs 首先使用卷积神经网络(CNN)从输入数据中提取空间特征,随后使用长短期记忆(LSTM)网络从提取的空间特征中学习序列模式 [7],[11],[57]。另一种方法,ConvLSTMs [5],[15],[22],[27],[41],[47],将LSTM门中的矩阵乘法替换为卷积操作,以捕捉序列模型中的空间依赖性。
时空图神经网络(ST-GNNs)[3],[21],[30],[33],[39],[40],[44],[58],[65] 最近由于其能够灵活处理不符合规则网格结构的时空数据而受到关注。它们在时空图上操作,将空间位置表示为图中的节点或顶点,连接的边表示邻近节点之间的空间关系,如接近性或连通性。更多关于ST-GNNs的细节可以参考 [20]。
继其他模态的成功之后,Transformer [46] 也因其能够通过自注意力机制捕捉跨越空间和时间的长程依赖关系而在时空数据中引起了广泛关注 [2],[17],[23],[29],[56],[59]。与卷积模型(在局部感受野上操作)或递归模型(依赖于顺序处理)不同,Transformer可以通过同时关注输入序列的所有部分来学习全局关系。这在那些复杂的、非线性的互动在大范围空间和长时间周期内演变的领域中特别有用。Transformer模型在其他模态的基础模型中也得到了广泛应用。然而,绝大多数时空研究依然采用单任务模型的方式,即为特定任务和训练数据训练单独的模型。
III. 时空基础模型 单模型任务范式与基础模型范式的关键区别在于它们的泛化能力。
定义 3.1:泛化是模型从一组数据到另一组数据的有效迁移学习模式的能力。
在单模型任务范式中,模型是针对单一任务和单一领域的数据进行训练的,期望其仅能对来自同一概率分布的未见样本进行泛化。另一方面,基础模型是在更广泛的数据上进行训练的,期望其能够对来自其他分布的新数据进行泛化。在这种背景下,我们对时空基础模型(STFM)的定义如下:
定义 3.2:时空基础模型(STFM)是一个在多种时空数据源上进行大规模预训练的神经网络,旨在通过学习空间和时间依赖性的普遍模式,从而在多个任务之间实现泛化。
这个描述故意保持广泛,以反映现有时空基础模型研究中的显著多样性。我们观察到,基础模型的“基础性”并不是一个二元的描述,而是存在于一个光谱上,其泛化能力的展示程度各不相同。为了开始解读这种多样性,我们提出了一个基本问题:时空基础模型应该能够做什么?我们通过识别时空上下文中任务的四种主要变化方式来回答这个问题,从而得出四种泛化形式,用于评估时空基础模型的能力。总的来说,这些泛化能力如下:
领域泛化:跨越不同数据源,代表不同的物理系统和应用类别。 空间泛化:跨越不同的空间位置或区域。 时间泛化:跨越不同的时间段和间隔。 尺度泛化:跨越不同的数据分辨率、频率或粒度。 这些泛化能力可以通过两种不同的方式进行评估:
同分布泛化:我们可以通过评估模型在预训练阶段遇到的任务上的表现,来评估其在多个领域和分布上学习到的可泛化模式的能力。 跨分布泛化:或者,我们可以评估模型在没有接触过的数据分布的情况下,将其迁移到预训练阶段未见过的新任务的能力。 A. 时空基础模型的泛化能力 在本节的其余部分,我们全面详细地探讨四种泛化方式,并识别在当前数据和技术限制下实现这些泛化能力的关键挑战。
挑战:基础模型依赖于跨不同数据源或领域之间存在共享模式。例如,在语言学中,单词的语义意义在不同的上下文中通常是一致的,句子遵循一套共同的语法规则。相比之下,时空数据的分布规律高度依赖于应用。例如,在交通网络中,交通流量和交通事故等应用可能会有很强的相关性,因为它们都涉及相同的基础物理系统。同样,在天气与气候研究中,空气中污染物的浓度通常与降水的发生和强度密切相关。在这些情况下,通过结合这两类应用的时空数据训练时空基础模型(STFM)可能会通过共享模式带来相互的好处。然而,在更为离散的应用之间,例如交通事故和疾病爆发之间,是否能通过同时建模这两类应用来提高STFM的表现,仍然存在不确定性,这种现象在深度学习领域中被称为负迁移。这突出了开发能够有效跨多个应用领域进行泛化的时空基础模型的挑战。如第IV节所述,目前的研究通常侧重于更为狭义的STFM,通常局限于某一领域中的少数应用,而非解决跨领域泛化的问题。 2) 空间泛化 第二种泛化方式是跨越不同空间位置。一个时空基础模型不应仅限于从有限的地理空间选择中进行应用,它应该能够从不同的环境和条件中学习,并能够在推理阶段迁移到未见过的地方。
挑战:时空数据可能表现出显著的空间异质性。换句话说,数据模式可能在不同的位置间有显著的变化,即使在同一应用中也是如此。例如,在交通流量应用中,基于一个城市的交通数据训练的模型可能很难将其泛化到另一个有不同道路网络或交通法规的城市中。在污染物浓度应用中,基于高度城市化区域的数据训练的模型可能很难将其泛化到郊区或农村地区。这种挑战在某些现有数据集的预训练中尤为严重,因为这些数据集往往在某些特定区域有偏倚。例如,现有研究中使用的交通数据集,往往过度集中在像北京、纽约市和伦敦这样的主要城市,这增加了时空基础模型(STFM)对这些城市及类似城市中的模式的偏倚,而无法对其他大多数区域做出有效的泛化,尤其是在那些较小的、甚至没有出现在训练数据中的地区。 3) 时间泛化 时空基础模型还应能够跨越不同的时间段进行泛化。例如,它应在白天和夜晚、工作日和周末以及从一年到下一年的时间段中都能表现良好。
挑战:时空模式本质上是动态的,持续以复杂的方式演变。因此,模型所学习到的模式可能随时间推移而失去相关性。这些变化可能是渐进的,例如某一城市的总体人口增长导致交通和公共交通的使用量逐步增加。这类渐进变化通常较为容易管理,因为数据分布的变化速度较慢,为通过重新训练模型来适应新数据提供了机会。相反,某些变化可能是突如其来的剧烈变化。例如,某个新景点的开设可能导致交通量急剧增加,或是自然灾害等突发事件的发生。这类变化的应对要困难得多,因为它们的影响复杂且分布发生了突变,造成了历史数据和新现实之间的显著差距。这限制了模型在面对这些突变时的重新训练能力。 4) 尺度泛化 时空数据跨越了广泛的尺度。从空间尺度来看,可以从小尺度的测量(如米级)到大尺度的观测(覆盖数百公里甚至更远)。同样,时间尺度也从高频观测(如秒级或分钟级时间戳)到低频数据(如天级或周级数据)不等。一个时空基础模型必须能够跨越这些不同的空间和时间尺度进行泛化。
挑战:时空模式可能高度依赖于尺度,也就是说,数据在不同尺度下观察时,模式可能会有所不同。这在天气应用中尤为显著。例如,基于全球天气模式训练的模型可能无法在区域级的精细尺度上表现良好,因为各个区域有其独特的特征和微气候,这些特征在更广泛的全球数据中不那么明显。为克服这个挑战,现有的时空数据挖掘研究探索了层次化架构,这些架构旨在捕捉不同级别和不同尺度的模式。
IV. 当前时空基础模型研究 本节中,我们将审视当前时空基础模型(STFM)研究的现状,重点介绍一些特别近期和具有影响力的模型。我们首先简要描述每个模型。
UniST [61] 采用基于 Transformer 的编码器-解码器架构,使用掩码补丁建模进行训练,目标是从模型输出中的掩码标记恢复原始数据。在预训练阶段,使用多种掩码来模拟重建阶段中的不同问题。此外,UniST构建了学习到的提示池,以编码不同形式的时空知识,例如空间邻近性和日常或每周的周期性,这些信息被添加到掩码标记嵌入中,引导模型朝着更好的预测方向发展。
OpenCity [25] 将 Transformer 架构与图神经网络结合,学习来自大规模异构交通数据集的时空依赖关系。
UrbanGPT [24] 学习将时空序列编码为新表示,可以将这些表示嵌入到自然语言提示中,从而使得大型语言模型能够理解和处理这些提示。
ClimaX [35] 使用视觉 Transformer 进行多种天气和气候相关任务。它独立地对每个变量进行标记化和嵌入,以灵活地处理不同数量的输入变量,然后聚合这些变量以减少内存复杂度。
Pangu-Weather 设计了一个三维地球专用 Transformer(3DEST),将天气信息处理为立方体数据,并进行有监督训练,以执行各种天气预测任务。
A. 当前STFM泛化能力 表I 展示了我们对当前最先进的STFM在泛化能力方面的定性评估,基于原始文献中展示的性能。接下来,我们将详细解释我们的评估标准。
B. 领域泛化 一个显著的观察是,与其他模态的基础模型不同,STFM在应用上高度碎片化。UniST、UrbanGPT 和 OpenCity 几乎完全专注于交通数据。UniST 和 OpenCity 总共在21个数据集上进行训练和评估,但这些数据集中的大多数都涉及交通速度或流量,另外一些数据集包括自行车使用、出租车轨迹和蜂窝使用。两个模型都通过完全排除某些数据集来评估它们在适应未见过的应用中的能力。另一方面,UrbanGPT 仅使用四个来自出租车、自行车和犯罪应用的数据集,其中三个用于预训练。
Pangu-Weather 和 ClimaX 则专注于各种大气变量。ClimaX 总共接受48个输入变量,但只评估了其中的4个变量。Pangu-Weather 只在预测任务中进行评估。
C. 空间泛化 公共交通数据集的空间覆盖仅限于少数几个主要的城市中心。UniST 和 OpenCity 在预训练和评估中使用的数据集分别来自美国和中国的不同城市,并在这些城市的未见区域上评估泛化能力。UrbanGPT 完全在纽约市的数据上进行训练,并在其对未见区域的泛化能力以及对新城市(如芝加哥)的泛化能力上进行评估。由于这些地理位置非常有限,因此很难评估它们在与训练集高度不同的位置上的泛化能力。
常用的天气数据集使用来自卫星的全球覆盖的真实观测数据,并结合数值天气预测模型,这意味着它们相比交通数据集提供了更广泛的空间覆盖。特别是,ClimaX 在 CMIP6 [32] 上进行训练,并在 ERA5 [19], [43] 上进行测试,而 Pangu-Weather 在 ERA5 中的不同年份数据上进行训练和评估。这两项工作的主要实验是在全球范围内进行性能测试,尽管ClimaX 也在北美区域进行区域预测。然而,由于训练和推理是同时在整个全球范围内进行的,这并没有展示从已见区域到未见区域的泛化能力。这两项研究也缺乏对空间维度中误差分布的分析。
D. 时间泛化 来自中国的大多数交通数据集仅记录了2022年3月和4月的同一月份数据,时间间隔为5分钟。其他数据集在时间跨度和总长度上略有差异,涵盖过去十年。UrbanGPT 在长期预测能力方面的评估通过使用2017年数据进行训练,并在2021年数据上进行测试。
天气数据集通常包含更长的时间跨度,使得训练和评估可以涵盖更长的时间范围。Pangu-Weather 在 ERA5 中使用了38年的数据(1979-2017),并在2019年验证,在2018年和2020-2021年的数据上进行测试;而ClimaX 则使用 CMIP6 数据进行训练,时间范围从1850年到2014年,并在 ERA5 上进行测试。此外,ClimaX 的气候预测任务扩展至2100年,尽管需要注意的是,这并非一个时间建模任务,因为它并未使用历史观测数据来预测未来状态。
E. 尺度泛化 大多数交通数据集的记录时间间隔为5到30分钟。UniST 执行了6个时间步长的短期实验和64个时间步长的长期实验,无论是输入还是目标输出的大小。UrbanGPT 只考虑了12个时间步长的单一时间尺度。
跨空间尺度的泛化对于天气相关应用尤其重要。从空间上看,Pangu-Weather 只考虑了一个空间分辨率;0.25° × 0.25°,大约对应28km × 28km的格网大小。相比之下,ClimaX 使用了5.625° × 5.625°的格网以及1.40625° × 1.40625°的格网进行评估。它还评估了模型从5.625°降尺度到1.40625°的能力,以及仅在北美的区域预测。然而,这些都属于相对大尺度且粗略的分辨率,无法捕捉到最有用的局部模式,这对于地方级预测至关重要。
从时间上看,Pangu-Weather 为不同的预报时间(1小时、3小时、6小时和24小时)训练了四个独立的模型,并将这些模型进行聚合,以进行任意时间的预测。这是为了减少预测中的误差传播,尤其是在较长预测时间下,但这也与基础模型的初衷相悖。另一方面,ClimaX 在预训练时随机化了6小时到168小时(1周)之间的预报时间,并在评估时使用了不同的预报时间。此外,它考虑了各种预测任务,包括季节性预测和跨越更长时间范围的气候预测。
V. 机会 A. 跨领域协同 在第III-A1节中探讨了来自不同应用或来源的时空序列之间复杂的关系。这些关系在现有的时空模型中被严重低估。例如,基于我们对传染病通过密切接触传播的理解,我们可以推测人类流动模式和交通流量可能会显著影响疾病传播。因此,捕捉人类流动模式的模型也可能为模拟疾病传播提供有价值的见解。通过训练时空基础模型(STFM)来理解来自多个领域的数据模式,我们可以通过识别和利用跨领域的相关性,增强在特定应用中的性能。
一个重要的考虑是,许多应用之间的关系是有方向的。例如,天气条件可能会影响出行模式,因此准确的天气预测有助于预测交通流量,但反过来并不成立。因此,一个有前景的方法可能是设计机制,将关于时空动态的先验知识(如物理法则和约束)融入模型中。如果某些特征之间的关系尚不明确,我们还可以借助因果学习的最新进展来揭示这些关系。已经有一个专门的研究领域,致力于在时空背景下发现和推断因果关系[13],[28],[67],这一研究线索在时空神经网络时代[12],[48],[52],[66]中得到了延续。
B. 统一架构 如第II节所述,时空数据以各种不同的类型和格式出现。一个有效的时空基础模型应能够处理所有这些数据类型,但现有的模型主要或完全专注于单一数据类型(即基于网格的栅格数据)。最近有一些初步的工作开始尝试将更灵活的时空图数据纳入模型[62],[63],然而这些方法大多将其视为简单的预处理步骤,可能未能充分考虑不同数据类型的独特属性。此外,当前研究中对Transformer架构的关注过于集中,而Transformer由于其自注意机制存在二次复杂度,随着时空数据集的规模以及待建模变量和特征数量的增长,这一复杂度逐渐成为学习时空模式的障碍。为了解决这些挑战,需要创新性的方法,如稀疏注意力机制、高效的基于图的表示以及将Transformer与其他架构(如卷积神经网络)结合的混合模型。
C. 多样化目标 现有的时空研究主要集中在预测变量的空间分布或基于历史观测数据预测其未来状态。尽管这些目标具有重要的实践意义,但时空基础模型(STFM)有能力执行许多其他任务。例如,异常检测可以自然地从预测任务中衍生出来,通过测量预测序列与真实序列之间的差异。在这种情况下,底层表示学习的质量起着至关重要的作用,一个在某一任务中表现优秀的模型,通常也能在其他任务中有效地发挥作用,因为它已经学习到强大的特征表示。然而,如果能够为STFM赋予执行其他任务的能力,如分类、聚类或推荐系统,将大大扩展其在各种应用中的实用性,同时又不影响其在其他任务中的准确性。一种有效的方式是为基础模型添加一个轻量级模块,使其能够在不损失准确性的情况下,灵活高效地适应新任务。
D. 适应数据分布偏移 基础模型通过大量数据进行训练,跨越不同来源和领域,从而使其暴露于各种场景下。然而,在推理阶段,它们仍然严重依赖于训练数据的统计特性。如果测试数据与训练分布偏离(例如,由于城市发展等时间变化或区域政策等空间差异),模型的表现可能会急剧下降。此外,时空数据的高复杂度和维度增加了在实际应用中遇到未见过的模式或分布外(OOD)场景的可能性。第III-A2节和III-A3节中已经识别出了这一挑战。基础模型的适应性提供了一个有前景的解决方案来应对这一挑战。近年来,关于计算机视觉中基础模型适应性的研究引起了广泛关注,以提高它们在特定任务中的性能,尤其是在数据分布外的任务中。最新的研究集中在如领域对抗训练等技术上,旨在鼓励模型学习领域不变的特征,此外还有元学习技术,可以通过有限的新分布数据迅速适应新的分布。
VI. 结论 时空基础模型(STFM)作为一种新兴的研究方向,展现出极大的潜力,能够提高现有任务的性能,并解锁与时空数据相关的新任务。尽管STFM在捕捉时空关系的复杂性方面展现了显著的潜力,其在空间区域、时间段和新的下游任务上的泛化能力仍然是一个关键挑战。我们强调了空间变化性、时间动态、数据分布偏移和尺度依赖模式等问题,这些问题限制了有效的泛化能力。
随着时空模型的不断发展,未来的研究应重点开发增强模型适应未见数据分布和动态环境的技术。通过集成更强大的机制来处理跨领域的相关性,并融入细粒度的适应性技术,我们可以充分发挥STFM在广泛实际应用中的潜力。通过持续创新和完善,时空模型有望推动我们对复杂系统的理解,进而实现更准确的预测、更好的决策支持以及跨领域的更优成果。