Large vision-language models (VLMs) typically process hundreds or thousands of visual tokens per image or video frame, incurring quadratic attention cost and substantial redundancy. Existing token reduction methods often ignore the textual query or rely on deep attention maps, whose instability under aggressive pruning leads to degraded semantic alignment. We propose FlashVLM, a text guided visual token selection framework that dynamically adapts visual inputs to the query. Instead of relying on noisy attention weights, FlashVLM computes an explicit cross modal similarity between projected image tokens and normalized text embeddings in the language model space. This extrinsic relevance is fused with intrinsic visual saliency using log domain weighting and temperature controlled sharpening. In addition, a diversity preserving partition retains a minimal yet representative set of background tokens to maintain global context. Under identical token budgets and evaluation protocols, FlashVLM achieves beyond lossless compression, slightly surpassing the unpruned baseline while pruning up to 77.8 percent of visual tokens on LLaVA 1.5, and maintaining 92.8 percent accuracy even under 94.4 percent compression. Extensive experiments on 14 image and video benchmarks demonstrate that FlashVLM delivers state of the art efficiency performance trade offs while maintaining strong robustness and generalization across mainstream VLMs.


翻译:大型视觉语言模型(VLMs)通常每幅图像或视频帧需处理数百至数千个视觉令牌,导致二次注意力计算成本与大量冗余。现有令牌约简方法常忽略文本查询或依赖深层注意力图,其在激进剪枝下的不稳定性会导致语义对齐退化。本文提出FlashVLM,一种文本引导的视觉令牌选择框架,可依据查询动态调整视觉输入。该方法摒弃对噪声注意力权重的依赖,通过计算语言模型空间中投影图像令牌与归一化文本嵌入间的显式跨模态相似度。此外,通过对数域加权与温度控制锐化,将此外在关联性与内在视觉显著性相融合。同时,采用多样性保持分区策略保留最小但具代表性的背景令牌集合以维持全局上下文。在相同令牌预算与评估协议下,FlashVLM实现了超越无损压缩的效果:在LLaVA 1.5模型上剪除高达77.8%视觉令牌的同时,性能小幅超越未剪枝基线;即使在94.4%压缩率下仍保持92.8%准确率。在14个图像与视频基准上的大量实验表明,FlashVLM在主流VLMs中实现了最优的效率-性能权衡,同时保持强大的鲁棒性与泛化能力。

0
下载
关闭预览

相关内容

【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员