Vision Large Language Models (VLLMs) incur high computational costs due to their reliance on hundreds of visual tokens to represent images. While token pruning offers a promising solution for accelerating inference, this paper, however, identifies a key observation: in deeper layers (e.g., beyond the 20th), existing training-free pruning methods perform no better than random pruning. We hypothesize that this degradation is caused by "vanishing token information", where visual tokens progressively lose their salience with increasing network depth. To validate this hypothesis, we quantify a token's information content by measuring the change in the model output probabilities upon its removal. Using this proposed metric, our analysis of the information of visual tokens across layers reveals three key findings: (1) As layers deepen, the information of visual tokens gradually becomes uniform and eventually vanishes at an intermediate layer, which we term as "information horizon", beyond which the visual tokens become redundant; (2) The position of this horizon is not static; it extends deeper for visually intensive tasks, such as Optical Character Recognition (OCR), compared to more general tasks like Visual Question Answering (VQA); (3) This horizon is also strongly correlated with model capacity, as stronger VLLMs (e.g., Qwen2.5-VL) employ deeper visual tokens than weaker models (e.g., LLaVA-1.5). Based on our findings, we show that simple random pruning in deep layers efficiently balances performance and efficiency. Moreover, integrating random pruning consistently enhances existing methods. Using DivPrune with random pruning achieves state-of-the-art results, maintaining 96.9% of Qwen-2.5-VL-7B performance while pruning 50% of visual tokens. The code will be publicly available at https://github.com/YahongWang1/Information-Horizon.


翻译:视觉大语言模型(VLLMs)因依赖数百个视觉标记表示图像而带来高昂计算成本。尽管标记剪枝为加速推理提供了可行方案,但本文发现关键现象:在较深层(如第20层之后),现有的免训练剪枝方法表现并不优于随机剪枝。我们假设这种性能退化源于“标记信息衰减”,即视觉标记随网络深度增加逐渐丧失显著性。为验证该假设,我们通过测量移除标记后模型输出概率的变化来量化其信息含量。基于该指标对跨层视觉标记信息的分析揭示三个核心发现:(1)随着层数加深,视觉标记信息逐渐均匀化并在中间层完全消失,我们称之为“信息视界”,此后视觉标记变得冗余;(2)该视界位置并非固定,相较于视觉问答(VQA)等通用任务,光学字符识别(OCR)等视觉密集型任务会使其向更深层延伸;(3)视界深度与模型能力强相关,更强的VLLMs(如Qwen2.5-VL)比较弱模型(如LLaVA-1.5)使用更深层的视觉标记。基于这些发现,我们证明在深层采用简单随机剪枝可有效平衡性能与效率。此外,结合随机剪枝能持续提升现有方法性能。使用DivPrune结合随机剪枝取得了最优结果,在剪除50%视觉标记的同时保持Qwen-2.5-VL-7B模型96.9%的性能。代码将发布于https://github.com/YahongWang1/Information-Horizon。

0
下载
关闭预览

相关内容

【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Arxiv
174+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
495+阅读 · 2023年3月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员