https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
我们提出 DeepSeek-V3.2-Exp,这是一种实验性的稀疏注意力模型,它在 DeepSeek-V3.1-Terminus 的基础上通过持续训练引入了 DeepSeek Sparse Attention (DSA)。借助 DSA —— 一种由“闪电索引器(lightning indexer)”驱动的细粒度稀疏注意力机制,DeepSeek-V3.2-Exp 在训练和推理效率上均实现了显著提升,尤其在长上下文场景中表现突出。模型检查点可在以下地址获取: 🔗 https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp
DeepSeek Sparse Attention(DSA)稀疏注意力机制
在官方介绍中,DeepSeek 表示 DeepSeek-V3.2-Exp 是实验版本。作为迈向下一代架构的过渡,V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek 稀疏注意力机制(DeepSeek Sparse Attention,DSA)—— 一种旨在探索和验证在长上下文场景下训练和推理效率优化的稀疏注意力机制。
DSA 也是 3.2 版本的唯一架构改进。
DeepSeek-V3.2-Exp 的架构,其中 DSA 在 MLA 下实例化。