生成模型是学习高维数据中时空结构的强大工具。然而,现实世界中的许多时空数据集融合了多种模态,并在不同的时空尺度上演化,这对现有生成架构提出了挑战。本论文通过一个三重视角——即解析、预测与沟通高维时空输出——来研究时空生成建模,并以跨越广阔空间、时间和模态范围的地理空间数据作为测试平台。
首先,我提出了TEOChat,这是首个能够通过自然语言指令对地球观测序列进行空间和时间解析的大型多模态助手。我展示了,一个在自然图像和视频上预训练的视觉语言模型可以被重塑为一个强大的通用模型,以胜任时空解析任务。其次,我引入了时空金字塔流,这是一系列用于跨时间尺度高效进行气候预测的流匹配方法。时空金字塔流将生成轨迹分割为一个时空金字塔,其中每个阶段都在特定的时间尺度上运行,同时提高样本的空间分辨率,从而实现在任何时间层级上直接、并行的采样,并支持实时、准确的多尺度气候模拟。最后,我介绍了SAI模拟器,这是一个交互式平台,它能够以易于理解的形式,为研究人员、政策制定者和公众沟通复杂的时空气候输出(例如由生成模拟器产生的输出)。
这些成果共同展示了生成式人工智能如何能够解析、预测与沟通复杂的时空现象,从而实现对多模态、多尺度地理空间数据更有效的建模与交互。