Visual Geometry Grounded Transformer (VGGT) delivers state-of-the-art feed-forward 3D reconstruction, yet its global self-attention layer suffers from a drastic collapse phenomenon when the input sequence exceeds a few hundred frames: attention matrices rapidly become near rank-one, token geometry degenerates to an almost one-dimensional subspace, and reconstruction error accumulates super-linearly.In this report,we establish a rigorous mathematical explanation of the collapse by viewing the global-attention iteration as a degenerate diffusion process.We prove that,in VGGT, the token-feature flow converges toward a Dirac-type measure at a $O(1/L)$ rate, where $L$ is the layer index, yielding a closed-form mean-field partial differential equation that precisely predicts the empirically observed rank profile.The theory quantitatively matches the attention-heat-map evolution and a series of experiments outcomes reported in relevant works and explains why its token-merging remedy -- which periodically removes redundant tokens -- slows the effective diffusion coefficient and thereby delays collapse without additional training.We believe the analysis provides a principled lens for interpreting future scalable 3D-vision transformers,and we highlight its potential for multi-modal generalization.


翻译:视觉几何基础Transformer(VGGT)在基于前馈的三维重建任务中实现了最先进的性能,然而当其输入序列长度超过数百帧时,其全局自注意力层会出现剧烈的坍缩现象:注意力矩阵迅速趋近于近似秩一,令牌几何结构退化至几乎一维的子空间,且重建误差以超线性方式累积。本报告通过将全局注意力迭代过程视为一种退化扩散过程,为此坍缩现象建立了严格的数学解释。我们证明,在VGGT中,令牌特征流以$O(1/L)$的速率收敛于狄拉克型测度(其中$L$为层索引),由此导出一个闭式平均场偏微分方程,该方程能精确预测实际观测到的秩分布曲线。该理论在定量上匹配了相关文献中报告的注意力热图演化规律及一系列实验结果,并解释了其令牌合并修正方案——通过周期性移除冗余令牌——能够减缓有效扩散系数从而延缓坍缩现象,且无需额外训练。我们相信该分析为解释未来可扩展的三维视觉Transformer提供了原理性视角,并指出其在多模态泛化方面的潜在价值。

0
下载
关闭预览

相关内容

【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2025年12月29日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员