The modeling of high-dimensional spatio-temporal processes presents a fundamental dichotomy between the probabilistic rigor of classical geostatistics and the flexible, high-capacity representations of deep learning. While Gaussian processes offer theoretical consistency and exact uncertainty quantification, their prohibitive computational scaling renders them impractical for massive sensor networks. Conversely, modern transformer architectures excel at sequence modeling but inherently lack a geometric inductive bias, treating spatial sensors as permutation-invariant tokens without a native understanding of distance. In this work, we propose a spatially-informed transformer, a hybrid architecture that injects a geostatistical inductive bias directly into the self-attention mechanism via a learnable covariance kernel. By formally decomposing the attention structure into a stationary physical prior and a non-stationary data-driven residual, we impose a soft topological constraint that favors spatially proximal interactions while retaining the capacity to model complex dynamics. We demonstrate the phenomenon of ``Deep Variography'', where the network successfully recovers the true spatial decay parameters of the underlying process end-to-end via backpropagation. Extensive experiments on synthetic Gaussian random fields and real-world traffic benchmarks confirm that our method outperforms state-of-the-art graph neural networks. Furthermore, rigorous statistical validation confirms that the proposed method delivers not only superior predictive accuracy but also well-calibrated probabilistic forecasts, effectively bridging the gap between physics-aware modeling and data-driven learning.


翻译:高维时空过程的建模呈现出经典地统计学概率严谨性与深度学习灵活高容量表征之间的根本性二分性。尽管高斯过程提供了理论一致性和精确的不确定性量化,但其高昂的计算复杂度使其难以适用于大规模传感器网络。相反,现代Transformer架构在序列建模方面表现出色,但本质上缺乏几何归纳偏置,将空间传感器视为排列不变的标记,而无法原生理解距离概念。本研究提出一种空间感知Transformer,这是一种通过可学习的协方差核将地统计归纳偏置直接注入自注意力机制的混合架构。通过将注意力结构形式化分解为平稳物理先验与非平稳数据驱动残差,我们施加了一种软拓扑约束,该约束倾向于空间邻近交互,同时保留建模复杂动态的能力。我们展示了"深度变异函数学"现象,即网络通过反向传播端到端地成功恢复了底层过程的真实空间衰减参数。在合成高斯随机场和真实世界交通基准数据集上的大量实验证实,我们的方法优于最先进的图神经网络。此外,严格的统计验证表明,所提出的方法不仅提供了更优的预测精度,还生成了校准良好的概率预测,有效弥合了物理感知建模与数据驱动学习之间的鸿沟。

0
下载
关闭预览

相关内容

[NeurIPS 2020] 球形嵌入的深度度量学习
专知会员服务
17+阅读 · 2020年11月8日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS 2020】核基渐进蒸馏加法器神经网络
专知
13+阅读 · 2020年10月19日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员