Transformers are increasingly adopted for modeling and forecasting time-series, yet their internal mechanisms remain poorly understood from a dynamical systems perspective. In contrast to classical autoregressive and state-space models, which benefit from well-established theoretical foundations, Transformer architectures are typically treated as black boxes. This gap becomes particularly relevant as attention-based models are considered for general-purpose or zero-shot forecasting across diverse dynamical regimes. In this work, we do not propose a new forecasting model, but instead investigate the representational capabilities and limitations of single-layer Transformers when applied to dynamical data. Building on a dynamical systems perspective we interpret causal self-attention as a linear, history-dependent recurrence and analyze how it processes temporal information. Through a series of linear and nonlinear case studies, we identify distinct operational regimes. For linear systems, we show that the convexity constraint imposed by softmax attention fundamentally restricts the class of dynamics that can be represented, leading to oversmoothing in oscillatory settings. For nonlinear systems under partial observability, attention instead acts as an adaptive delay-embedding mechanism, enabling effective state reconstruction when sufficient temporal context and latent dimensionality are available. These results help bridge empirical observations with classical dynamical systems theory, providing insight into when and why Transformers succeed or fail as models of dynamical systems.


翻译:Transformer在时间序列建模与预测中的应用日益广泛,然而从动态系统视角对其内部机制的理解仍显不足。相较于具备完善理论基础的经典自回归模型和状态空间模型,Transformer架构通常被视为黑箱。随着基于注意力的模型被考虑用于跨不同动态机制的通用途或零样本预测,这一认知差距变得尤为突出。本研究并未提出新的预测模型,而是探究单层Transformer在处理动态数据时的表示能力与局限性。基于动态系统视角,我们将因果自注意力解释为一种线性、历史依赖的递归过程,并分析其处理时序信息的方式。通过一系列线性和非线性案例研究,我们识别出不同的运行机制。对于线性系统,我们证明softmax注意力施加的凸性约束从根本上限制了可表示的动态类别,导致在振荡场景中出现过度平滑现象。对于部分可观测的非线性系统,注意力则充当自适应延迟嵌入机制,当具备足够时间上下文和潜在维度时,能够实现有效的状态重构。这些发现有助于将实证观察与经典动态系统理论相连接,从而深入理解Transformer作为动态系统模型何时及为何能够成功或失效。

0
下载
关闭预览

相关内容

【KDD2023】发现动态因果空间进行DAG结构学习
专知会员服务
33+阅读 · 2023年6月9日
【ICLR2022】Vision Transformer 模型工作机制的最新理论
专知会员服务
43+阅读 · 2022年2月19日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员