DeepSeek-V3和DeepSeek-R1是领先的开源大型语言模型(LLMs),适用于通用任务和推理任务,其性能可与OpenAI和Anthropic等公司的最先进闭源模型相媲美,而所需的训练成本仅为后者的一小部分。理解DeepSeek成功背后的关键创新技术对于推动LLM研究至关重要。在本文中,我们回顾了驱动这些模型显著有效性和效率的核心技术,包括对Transformer架构的改进、多头潜在注意力(Multi-Head Latent Attention)和专家混合(Mixture of Experts)等创新技术、多词元预测(Multi-Token Prediction)、算法-框架-硬件的协同设计、组相对策略优化算法(Group Relative Policy Optimization)、纯强化学习的后训练以及监督微调与强化学习交替进行的迭代训练。此外,我们还提出了若干开放性问题,并强调了这一快速发展领域中的潜在研究机会。
1 引言
2022年底,ChatGPT的出现[Ope25a]开启了大语言模型(LLM)研究的新时代。此后,LLM迅速发展,GPT[Ope25b]和Claude[Ant25]等模型展现了卓越的性能。尽管LLaMA[GDJ+24]等开源LLM在某些指标上取得了具有竞争力的结果,但其整体性能仍落后于专有模型。 2025年1月,DeepSeek凭借DeepSeek-V3[LFX+24]和新推出的DeepSeek-R1模型[GYZ+25]震撼市场并成为头条新闻[Reu25]。这些模型的性能可与最先进的GPT模型相媲美,而所需的训练资源仅为后者的一小部分。理解这些模型显著有效性和效率背后的技术对于推动LLM研究至关重要。
在本文中,我们回顾了DeepSeek模型成功的关键技术,包括对Transformer架构的改进——特别是多头潜在注意力(Multi-Head Latent Attention, MLA)和专家混合(Mixture of Experts, MoE);多词元预测(Multi-Token Prediction);算法、框架和硬件的协同设计;组相对策略优化(Group Relative Policy Optimization, GRPO)强化学习算法;以及后训练技术,如纯强化学习和在监督微调(Supervised Fine-Tuning, SFT)与强化学习之间交替进行的多阶段迭代训练。
此外,我们还指出了DeepSeek技术报告或消融研究中未解决的若干问题,并强调了潜在的研究机会。 在接下来的内容中,我们首先在第2节中对上述创新技术进行简明而深入的回顾,然后在第3节中讨论开放问题和潜在的研究方向,最后在第4节中对全文进行总结。