现代大型语言模型(LLMs)通常面临当前硬件上的通信瓶颈,而不仅仅是计算限制。多头潜在注意力(MLA)通过在键值层中利用低秩矩阵来解决这一问题,从而实现压缩的潜在键值(KV)状态的缓存。与传统的多头注意力相比,这一设计显著减少了KV缓存的大小,从而加速了推理过程。此外,MLA还引入了一个上投影矩阵,以增强表达能力,实际上是通过增加额外计算来换取减少通信开销。尽管在Deepseek V2/V3/R1中已经证明了其效率和效果,许多主要模型提供商仍然继续依赖群体查询注意力(GQA),并且没有公开计划采纳MLA。本文表明,GQA总是可以由MLA表示,并且KV缓存开销相同——但反之则不成立。为了促进更广泛的采用,我们引入了TransMLA,一种后训练方法,能够将广泛使用的基于GQA的预训练模型(如LLaMA、Qwen、Mixtral)转换为基于MLA的模型。在完成这一转换后,进一步的训练将提升模型的表达能力,而不会增加KV缓存的大小。此外,我们还计划开发专门针对MLA的推理加速策略,以保持转换后的模型的低延迟,从而促进Deepseek R1的更有效蒸馏。

成为VIP会员查看完整内容
1

相关内容

【ACMMM2024】用于多媒体推荐的模态平衡学习"
专知会员服务
12+阅读 · 2024年8月14日
【CVPR2024】用于视觉-语言导航的体积环境表示
专知会员服务
18+阅读 · 2024年3月24日
【WWW2024】RecDCL: 双重对比学习用于推荐
专知会员服务
22+阅读 · 2024年1月30日
【CVPR2023】正则化二阶影响的持续学习
专知会员服务
19+阅读 · 2023年4月22日
专知会员服务
23+阅读 · 2021年9月27日
专知会员服务
63+阅读 · 2021年3月12日
【NeurIPS2020】针对弱监督目标检测的综合注意力自蒸馏
专知会员服务
32+阅读 · 2020年11月12日
【CVPR2020】用多样性最大化克服单样本NAS中的多模型遗忘
【AAAI2021】对比聚类,Contrastive Clustering
专知
25+阅读 · 2021年1月30日
【NeurIPS2019】图变换网络:Graph Transformer Network
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Arxiv
164+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
430+阅读 · 2023年3月31日
Arxiv
71+阅读 · 2023年3月26日
Arxiv
157+阅读 · 2023年3月24日
Arxiv
22+阅读 · 2023年3月17日
Heterogeneous Deep Graph Infomax
Arxiv
12+阅读 · 2019年11月19日
VIP会员
相关VIP内容
【ACMMM2024】用于多媒体推荐的模态平衡学习"
专知会员服务
12+阅读 · 2024年8月14日
【CVPR2024】用于视觉-语言导航的体积环境表示
专知会员服务
18+阅读 · 2024年3月24日
【WWW2024】RecDCL: 双重对比学习用于推荐
专知会员服务
22+阅读 · 2024年1月30日
【CVPR2023】正则化二阶影响的持续学习
专知会员服务
19+阅读 · 2023年4月22日
专知会员服务
23+阅读 · 2021年9月27日
专知会员服务
63+阅读 · 2021年3月12日
【NeurIPS2020】针对弱监督目标检测的综合注意力自蒸馏
专知会员服务
32+阅读 · 2020年11月12日
【CVPR2020】用多样性最大化克服单样本NAS中的多模型遗忘
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
相关论文
Arxiv
164+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
430+阅读 · 2023年3月31日
Arxiv
71+阅读 · 2023年3月26日
Arxiv
157+阅读 · 2023年3月24日
Arxiv
22+阅读 · 2023年3月17日
Heterogeneous Deep Graph Infomax
Arxiv
12+阅读 · 2019年11月19日
微信扫码咨询专知VIP会员