DeepSeek-V3和DeepSeek-R1是领先的开源大型语言模型(LLMs),适用于通用任务和推理任务,其性能可与OpenAI和Anthropic等公司的最先进闭源模型相媲美,而所需的训练成本仅为后者的一小部分。理解DeepSeek成功背后的关键创新技术对于推动LLM研究至关重要。在本文中,我们回顾了驱动这些模型显著有效性和效率的核心技术,包括对Transformer架构的改进、多头潜在注意力(Multi-Head Latent Attention)和专家混合(Mixture of Experts)等创新技术、多词元预测(Multi-Token Prediction)、算法-框架-硬件的协同设计、组相对策略优化算法(Group Relative Policy Optimization)、纯强化学习的后训练以及监督微调与强化学习交替进行的迭代训练。此外,我们还提出了若干开放性问题,并强调了这一快速发展领域中的潜在研究机会。

1 引言

2022年底,ChatGPT的出现[Ope25a]开启了大语言模型(LLM)研究的新时代。此后,LLM迅速发展,GPT[Ope25b]和Claude[Ant25]等模型展现了卓越的性能。尽管LLaMA[GDJ+24]等开源LLM在某些指标上取得了具有竞争力的结果,但其整体性能仍落后于专有模型。 2025年1月,DeepSeek凭借DeepSeek-V3[LFX+24]和新推出的DeepSeek-R1模型[GYZ+25]震撼市场并成为头条新闻[Reu25]。这些模型的性能可与最先进的GPT模型相媲美,而所需的训练资源仅为后者的一小部分。理解这些模型显著有效性和效率背后的技术对于推动LLM研究至关重要。

在本文中,我们回顾了DeepSeek模型成功的关键技术,包括对Transformer架构的改进——特别是多头潜在注意力(Multi-Head Latent Attention, MLA)和专家混合(Mixture of Experts, MoE);多词元预测(Multi-Token Prediction);算法、框架和硬件的协同设计;组相对策略优化(Group Relative Policy Optimization, GRPO)强化学习算法;以及后训练技术,如纯强化学习和在监督微调(Supervised Fine-Tuning, SFT)与强化学习之间交替进行的多阶段迭代训练。

此外,我们还指出了DeepSeek技术报告或消融研究中未解决的若干问题,并强调了潜在的研究机会。 在接下来的内容中,我们首先在第2节中对上述创新技术进行简明而深入的回顾,然后在第3节中讨论开放问题和潜在的研究方向,最后在第4节中对全文进行总结。

成为VIP会员查看完整内容
39

相关内容

深度求索(DeepSeek),全称杭州深度求索人工智能基础技术研究有限公司,是中国的一家人工智能与大型语言模型公司。2025年1月10日,DeepSeek为iOS和安卓系统发布其首款免费的基于DeepSeek-R1模型聊天机器人程序。截止到27日,DeepSeek-R1超过ChatGPT成为美区iOS应用商店免费应用程序榜首[3],并导致英伟达股价大跌18%[4][5]。DeepSeek成功挑战实力更强、更为著名的竞品从而被认为是颠覆人工智能[6]、打响了全球人工智能领域竞赛的第一枪[7]、引领人工智能下边缘政策新纪元
生物医学基础模型:综述
专知会员服务
33+阅读 · 3月8日
图检索增强生成研究进展
专知会员服务
32+阅读 · 2024年11月5日
金融时间序列预测中的可解释人工智能(XAI)综述
专知会员服务
42+阅读 · 2024年7月25日
大语言模型的终身学习综述
专知会员服务
70+阅读 · 2024年6月15日
《大型语言模型持续学习》综述
专知会员服务
87+阅读 · 2024年4月26日
《大规模分布式图算法》综述
专知会员服务
28+阅读 · 2024年4月11日
《Transformer压缩》综述
专知会员服务
49+阅读 · 2024年2月14日
基于模型的强化学习综述
专知
36+阅读 · 2022年7月13日
实体关系抽取方法研究综述
专知
11+阅读 · 2020年7月19日
【NLP】万字长文概述NLP中的深度学习技术
产业智能官
18+阅读 · 2019年7月7日
使用 Bert 预训练模型文本分类(内附源码)
数据库开发
102+阅读 · 2019年3月12日
万字长文概述NLP中的深度学习技术
全球人工智能
12+阅读 · 2019年2月28日
视觉SLAM技术综述
计算机视觉life
25+阅读 · 2019年1月4日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
国家自然科学基金
14+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Arxiv
166+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
452+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
Arxiv
11+阅读 · 2018年7月31日
VIP会员
相关VIP内容
生物医学基础模型:综述
专知会员服务
33+阅读 · 3月8日
图检索增强生成研究进展
专知会员服务
32+阅读 · 2024年11月5日
金融时间序列预测中的可解释人工智能(XAI)综述
专知会员服务
42+阅读 · 2024年7月25日
大语言模型的终身学习综述
专知会员服务
70+阅读 · 2024年6月15日
《大型语言模型持续学习》综述
专知会员服务
87+阅读 · 2024年4月26日
《大规模分布式图算法》综述
专知会员服务
28+阅读 · 2024年4月11日
《Transformer压缩》综述
专知会员服务
49+阅读 · 2024年2月14日
相关资讯
基于模型的强化学习综述
专知
36+阅读 · 2022年7月13日
实体关系抽取方法研究综述
专知
11+阅读 · 2020年7月19日
【NLP】万字长文概述NLP中的深度学习技术
产业智能官
18+阅读 · 2019年7月7日
使用 Bert 预训练模型文本分类(内附源码)
数据库开发
102+阅读 · 2019年3月12日
万字长文概述NLP中的深度学习技术
全球人工智能
12+阅读 · 2019年2月28日
视觉SLAM技术综述
计算机视觉life
25+阅读 · 2019年1月4日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
相关基金
国家自然科学基金
14+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
相关论文
Arxiv
166+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
452+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
Arxiv
11+阅读 · 2018年7月31日
微信扫码咨询专知VIP会员