时空(ST)数据科学涵盖跨空间和时间的大规模数据感知、管理和挖掘,是理解城市计算、气候科学和智能交通等领域复杂系统的基础。传统的深度学习方法在这一领域取得了显著进展,尤其是在时空数据挖掘阶段。然而,这些模型仍然是任务特定的,通常需要大量标注数据。受基础模型(FM),尤其是大语言模型成功的启发,研究人员开始探索时空基础模型(STFMs)的概念,以增强跨多样化时空任务的适应性和泛化能力。与之前的架构不同,STFMs赋能了时空数据科学的整个工作流程,从数据感知、管理到挖掘,从而提供了一种更全面和可扩展的方法。尽管进展迅速,但对时空数据科学中STFMs的系统性研究仍然缺乏。本综述旨在全面回顾STFMs,对现有方法进行分类,并确定推动时空通用智能发展的关键研究方向。https://arxiv.org/pdf/2503.13502
1 引言 人类生活在一个由无数元素在空间和时间上动态交织而成的世界中。时空(ST)数据是指捕捉时空现象的数据,记录了对象或事件在位置和时间上的演变[5],例如气象记录、交通模式和人类活动轨迹。这些数据通常来自各种平台,包括物联网设备、GPS传感器、社交媒体和遥感技术。在这一背景下,时空数据科学专注于感知、管理和挖掘这些数据集,以揭示模式、理解复杂系统并预测未来动态。受其变革潜力的推动,这一领域解决了城市环境乃至整个地球面临的关键挑战,支持决策制定并促进创新,从而助力构建更智能、可持续和韧性的系统[178]。 在深度学习时代,研究社区主要集中于时空表示学习,作为时空数据挖掘的基础步骤[129]。关键进展包括时空图神经网络(STGNN)[51]和基于Transformer架构的开发,这些技术在交通预测[80, 146]、空气质量预测[82]和人类https://arxiv.org/pdf/2503.13502 移动性分析[132]等任务中表现出色。STGNN将图神经网络(GNN)与时间学习模块(如GRU[6, 70]、TCN[140, 141])结合,以建模时空相关性,而Transformer模型则利用自注意力机制[37, 78, 177]处理跨空间和时间的复杂依赖关系。此外,自监督学习[46, 74, 92]也取得了显著进展,这些模型能够在最小化依赖大规模标注数据集的情况下提取强大的表示。 受基础模型(FM),尤其是大语言模型(LLM)成功的推动,研究人员最近开始探索时空基础模型(STFM)的概念[32, 81, 169]。通过利用LLM,可以开发更具通用性和适应性的解决方案,并能够以最少的数据针对特定任务进行微调。另一种突出的方法是在跨领域时空数据上预训练基础模型(称为PFM),并将其适应于特定领域。与之前的架构(如STGNN)相比,STFM整合了感知、推理和优化的能力,不仅有望彻底改变时空数据挖掘,还赋能了时空数据科学的其他阶段,例如时空数据感知和管理(见图1)。这一转变有可能增强时空应用的可扩展性和效率,为应对城市计算、气候科学等领域的挑战提供更全面的方法。 尽管进展迅速,但对STFM在时空数据科学整个工作流程中的系统性分析仍然缺乏。首先,以往的综述主要集中在利用LLM作为时空数据挖掘的关键工具[32, 54, 81, 169],而在理解这些模型如何在整个过程中整合方面存在显著空白,即较少关注它们在感知和管理早期阶段的作用。其次,这些研究主要探讨了STFM在数值问题(如预测、插补)中的应用,而忽视了其在推理问题解决(如决策系统)中的作用。 为了填补这些空白,本文旨在对STFM在时空数据科学的所有阶段(包括数据感知、管理和挖掘)进行更全面的综述(见图1)。例如,LLM可以通过主动处理公民报告、优化参与式感知策略以及大规模生成合成数据来增强时空数据感知。在数据管理方面,它们可以自动化数据清理任务,构建有意义的知识图谱以支持数据集成,并促进跨模态数据集的更高效检索。除了这些阶段,我们的综述还探讨了STFM如何支持更广泛的下游应用,包括数值和推理问题。通过这一努力,我们希望阐明STFM的整体愿景,从而增强对其优化时空数据科学潜力的理解,促进更集成和适应性强的解决方案。 同时,我们系统地研究了STFM建模多样化时空数据的关键方法。我们首先将现有的STFM分为两大类:LLM和预训练基础模型(PFM)。对于在语言数据上预训练的LLM,我们重点关注其作为零样本[33]或少样本学习器[53, 73]的使用,分别探讨了各种提示和微调策略。对于基于跨领域时空数据从头训练的PFM[40, 158, 189],我们研究了其神经架构、预训练方法以及其对不同类型时空数据(包括位置数据、轨迹数据、事件、时空栅格数据和时空图数据)的适应性。 总结而言,我们的主要贡献体现在以下三个方面: * 全面且最新的综述:我们首次对基础模型在时空数据科学整个工作流程中的应用进行了全面且现代的综述,涵盖数据感知、管理和挖掘。与大多数现有综述相比,我们还探讨了更广泛的下游任务和数据类型(见表1)。 * 愿景与方法论:我们提出了STFM的愿景,确定了其成功所需的关键能力,并详细讨论了实现这些能力的当前方法论。 * 未来方向:我们强调了利用基础模型推进时空数据科学的有前景的方向,鼓励在这一新兴领域进行进一步研究和探索。
论文结构:本文的其余部分组织如下:第2节提供了关于基础模型和时空数据的基本背景。第3节和第4节分别从工作流程和方法论的角度对STFM进行了分类。第5节提供了结论性意见,附录A则强调了未来研究的有前景的方向。