DeepSeek 大模型背景   (一)深度求索公司情况   DeepSeek,全称“杭州深度求索人工智能基础技术研究有限公司”,简称“深度求索”,于 2023 年 7 月 17 日由幻方量化创立,位于杭州市拱墅区,是一家创新型科技公司,专注于开发先进的大语言模型(LLM)和相关技术,法定代表人、执行董事兼总经理为裴湉。   2024 年 1 月 5 日,该公司发布第一个大模型 DeepSeekLLM。之后,相继发布 DeepSeek-Coder、DeepSeek-VL、DeepSeek V2、DeepSeek V3 等模型。其中,DeepSeek V2 模型因在中文综合能力评测中的出色表现,且以极低的推理成本引发行业关注,被称为“AI 界的拼多多”。2025 年 1 月 20日,该公司正式发布 DeepSeek-R1 模型,并同步开源模型权重。DeepSeek-R1 性能逼近 OpenAI o1 正式版,推理成本却仅为 OpenAI o1 的几十分之一。1 月 27 日,DeepSeek 应用登顶苹果美国地区应用商店免费 App 下载排行榜,在美区下载榜上超越了 ChatGPT。同日,苹果中国区应用商店免费榜显示,DeepSeek 成为中国区第一。1 月 28 日,DeepSeek 发布开源多模态模型 Janus-Pro,其中 70 亿参数版本的 JanusPro-7B 模型在使用文本提示的图像生成排行榜中优于OpenAI 的 DALL-E 3 和 Stability AI 的 Stable Diffusion。   2025 年 2 月 8 日,QuestMobile 数据显示,DeepSeek 在1 月 28 日的日活跃用户数首次超越豆包,随后在 2 月 1 日突破 3000 万大关,成为截至 2025 年 2 月史上最快达成这一里程碑的应用。   (二)模型迭代历程   中国初创企业深度求索(DeepSeek)研发大语言模型时据报绕过了美国人工智能巨头英伟达的 CUDA 框架,为DeepSeek 在未来适配中国国产晶片做好准备。   DeepSeek 通过优化算法架构,显著提升了算力利用效率,打破了算力至上的传统认知。DeepSeek-R1 的惊艳之处是通过重新设计训练流程、以少量 SFT 数据+ 多轮强化学习的办法,在提高了模型准确性的同时,也显著降低了内存占用和计算开销。 DeepSeek-R1 的效果示意:更少的 GPU(或其他AI 芯片)带来同样的效果高 DeepSeek-R1 提供了一种低成本训练的方法,而不是说只能通过低成本来进行训练。DeepSeek-R1 反而通过优化,DeepSeek-R1 可能实现了算力与性能的近似线性关系。每增加一张 GPU,模型推理能力可稳定提升,无需依赖复杂的外部监督机制。这一特性直接验证了“算力即性能”的 Scaling Law,为 AI 芯片市场及 AI Infra市场提供了明确的增量需求逻辑。   DS 不仅在推理模型上实现了突破,在多模态方面也保持了进步,并于近日开源发布了 Janus-Pro 多模态模型。基于算法工程方面的优化,DS 能够实现性价比更高的模型推理能力(价格低、效率高、性能强、可部署在端侧平台),并有望以强大的推理能力和多模态感知能力,重塑机器人交互与决策,同时通过低成本、高效率的解决方案,加速具身智能的普及与应用。

成为VIP会员查看完整内容
25

相关内容

深度求索(DeepSeek),全称杭州深度求索人工智能基础技术研究有限公司,是中国的一家人工智能与大型语言模型公司。2025年1月10日,DeepSeek为iOS和安卓系统发布其首款免费的基于DeepSeek-R1模型聊天机器人程序。截止到27日,DeepSeek-R1超过ChatGPT成为美区iOS应用商店免费应用程序榜首[3],并导致英伟达股价大跌18%[4][5]。DeepSeek成功挑战实力更强、更为著名的竞品从而被认为是颠覆人工智能[6]、打响了全球人工智能领域竞赛的第一枪[7]、引领人工智能下边缘政策新纪元
AI大模型赋能千行百业(附下载,117页)
专知会员服务
180+阅读 · 2023年7月20日
AI 大模型市场研究报告(2023),43页pdf
专知会员服务
235+阅读 · 2023年5月10日
《颠覆性技术研究报告》200页报告
专知会员服务
79+阅读 · 2023年3月24日
【ChatGPT系列报告】ChatGPT的宏观视角,41页ppt
专知会员服务
126+阅读 · 2023年3月21日
【ChatGPT系列报告】国内大模型概览,42页ppt
专知会员服务
441+阅读 · 2023年3月8日
5G AIoT全景商用产品手册,52页pdf
专知会员服务
50+阅读 · 2021年9月10日
【陈天奇】TVM:端到端自动深度学习编译器,244页ppt
专知会员服务
87+阅读 · 2020年5月11日
重磅!AI框架发展白皮书(2022年),44页pdf
专知
28+阅读 · 2022年2月27日
AAAI2020 图相关论文集
图与推荐
10+阅读 · 2020年7月15日
自然语言处理常识推理综述论文,60页pdf
专知
73+阅读 · 2019年4月4日
必读!生成对抗网络GAN论文TOP 10
GAN生成式对抗网络
58+阅读 · 2019年3月20日
万字综述之生成对抗网络(GAN)
PaperWeekly
43+阅读 · 2019年3月19日
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Arxiv
165+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
438+阅读 · 2023年3月31日
Arxiv
75+阅读 · 2023年3月26日
Arxiv
158+阅读 · 2023年3月24日
Arxiv
22+阅读 · 2023年3月17日
VIP会员
相关VIP内容
AI大模型赋能千行百业(附下载,117页)
专知会员服务
180+阅读 · 2023年7月20日
AI 大模型市场研究报告(2023),43页pdf
专知会员服务
235+阅读 · 2023年5月10日
《颠覆性技术研究报告》200页报告
专知会员服务
79+阅读 · 2023年3月24日
【ChatGPT系列报告】ChatGPT的宏观视角,41页ppt
专知会员服务
126+阅读 · 2023年3月21日
【ChatGPT系列报告】国内大模型概览,42页ppt
专知会员服务
441+阅读 · 2023年3月8日
5G AIoT全景商用产品手册,52页pdf
专知会员服务
50+阅读 · 2021年9月10日
【陈天奇】TVM:端到端自动深度学习编译器,244页ppt
专知会员服务
87+阅读 · 2020年5月11日
相关资讯
重磅!AI框架发展白皮书(2022年),44页pdf
专知
28+阅读 · 2022年2月27日
AAAI2020 图相关论文集
图与推荐
10+阅读 · 2020年7月15日
自然语言处理常识推理综述论文,60页pdf
专知
73+阅读 · 2019年4月4日
必读!生成对抗网络GAN论文TOP 10
GAN生成式对抗网络
58+阅读 · 2019年3月20日
万字综述之生成对抗网络(GAN)
PaperWeekly
43+阅读 · 2019年3月19日
相关基金
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员