Large Language Models (LLMs) with Mixture-of-Experts (MoE) architectures are distinguished by their strong performance scaling with increasing parameters across a wide range of tasks, yet they also suffer from substantial computational and storage overheads. Notably, the performance gains of MoE models do not scale proportionally with the growth in expert parameters. While prior works attempt to reduce parameters via expert-level pruning, merging, or decomposition, they still suffer from challenges in both performance and computational efficiency. In this paper, we address these challenges by introducing micro-expert as a finer-grained compression unit that spans across matrices. We first establish a more fundamental perspective, viewing MoE layers as mixtures of micro-experts, and present CAMERA, a lightweight and training-free framework for identifying micro-expert redundancy. Our analysis uncovers significant variance in micro-expert contributions during decoding. Based on this insight, we further propose CAMERA-P, a structured micro-expert pruning framework, and CAMERA-Q, a mixed-precision quantization idea designed for micro-experts. Extensive experiments on nine downstream tasks show that CAMERA-P consistently outperforms strong baselines under pruning ratios ranging from 20% to 60%. Furthermore, CAMERA-Q achieves superior results under aggressive 2-bit quantization, surpassing existing matrix- and channel-level ideas. Notably, our method enables complete micro-expert analysis of Qwen2-57B-A14B in less than 5 minutes on a single NVIDIA A100-40GB GPU.


翻译:采用混合专家(Mixture-of-Experts,MoE)架构的大语言模型(Large Language Models,LLMs)因其参数规模增长时在广泛任务中表现出的强大性能扩展性而备受关注,但同时也面临显著的计算与存储开销。值得注意的是,MoE模型的性能增益并未随专家参数增长而按比例扩展。现有研究尝试通过专家级剪枝、合并或分解来减少参数,但仍面临性能与计算效率的双重挑战。本文通过引入跨矩阵的细粒度压缩单元——微专家(micro-expert)来解决这些挑战。我们首先建立更基础的视角,将MoE层视为微专家的混合体,并提出CAMERA——一种轻量级、无需训练的微专家冗余识别框架。我们的分析揭示了微专家在解码过程中贡献度的显著差异。基于此发现,我们进一步提出结构化微专家剪枝框架CAMERA-P,以及面向微专家的混合精度量化方案CAMERA-Q。在九个下游任务上的大量实验表明,在20%至60%的剪枝比例范围内,CAMERA-P始终优于现有强基线方法。此外,CAMERA-Q在激进的2比特量化设置下取得优异结果,超越了现有矩阵级和通道级方案。值得注意的是,我们的方法可在单张NVIDIA A100-40GB GPU上于5分钟内完成Qwen2-57B-A14B模型的完整微专家分析。

0
下载
关闭预览

相关内容

图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员