Long Chain-of-Thought (CoT) reasoning has significantly advanced the capabilities of Large Language Models (LLMs), but this progress is accompanied by substantial memory and latency overhead from the extensive Key-Value (KV) cache. Although KV cache quantization is a promising compression technique, existing low-bit quantization methods often exhibit severe performance degradation on complex reasoning tasks. Fixed-precision quantization struggles to handle outlier channels in the key cache, while current mixed-precision strategies fail to accurately identify components requiring high-precision representation. We find that an effective low-bit KV cache quantization strategy must consider two factors: a key channel's intrinsic quantization difficulty and its relevance to the query. Based on this insight, we propose MixKVQ, a novel plug-and-play method that introduces a lightweight, query-aware algorithm to identify and preserve critical key channels that need higher precision, while applying per-token quantization for value cache. Experiments on complex reasoning datasets demonstrate that our approach significantly outperforms existing low-bit methods, achieving performance comparable to a full-precision baseline at a substantially reduced memory footprint.


翻译:长链思维推理显著提升了大型语言模型的能力,但这种进步伴随着大量键值缓存带来的巨大内存和延迟开销。尽管键值缓存量化是一种有前景的压缩技术,但现有的低位量化方法在复杂推理任务上通常表现出严重的性能下降。固定精度量化难以处理键缓存中的离群通道,而当前的混合精度策略则无法准确识别需要高精度表示的组件。我们发现,一种有效的低位键值缓存量化策略必须考虑两个因素:键通道固有的量化难度及其与查询的相关性。基于这一见解,我们提出了MixKVQ,一种新颖的即插即用方法,它引入了一种轻量级、查询感知的算法来识别并保留需要更高精度的关键键通道,同时对值缓存应用按令牌量化。在复杂推理数据集上的实验表明,我们的方法显著优于现有的低位量化方法,在显著降低内存占用的同时,实现了与全精度基线相当的性能。

0
下载
关闭预览

相关内容

ChatAug: 利用ChatGPT进行文本数据增强
专知会员服务
81+阅读 · 2023年3月4日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员