150页！《DeepSeek 大模型生态报告》

　DeepSeek 大模型背景　　（一）深度求索公司情况　　DeepSeek，全称“杭州深度求索人工智能基础技术研究有限公司”，简称“深度求索”，于 2023 年 7 月 17 日由幻方量化创立，位于杭州市拱墅区，是一家创新型科技公司，专注于开发先进的大语言模型（LLM）和相关技术，法定代表人、执行董事兼总经理为裴湉。　　2024 年 1 月 5 日，该公司发布第一个大模型 DeepSeekLLM。之后，相继发布 DeepSeek-Coder、DeepSeek-VL、DeepSeek V2、DeepSeek V3 等模型。其中，DeepSeek V2 模型因在中文综合能力评测中的出色表现，且以极低的推理成本引发行业关注，被称为“AI 界的拼多多”。2025 年 1 月 20日，该公司正式发布 DeepSeek-R1 模型，并同步开源模型权重。DeepSeek-R1 性能逼近 OpenAI o1 正式版，推理成本却仅为 OpenAI o1 的几十分之一。1 月 27 日，DeepSeek 应用登顶苹果美国地区应用商店免费 App 下载排行榜，在美区下载榜上超越了 ChatGPT。同日，苹果中国区应用商店免费榜显示，DeepSeek 成为中国区第一。1 月 28 日，DeepSeek 发布开源多模态模型 Janus-Pro，其中 70 亿参数版本的 JanusPro-7B 模型在使用文本提示的图像生成排行榜中优于OpenAI 的 DALL-E 3 和 Stability AI 的 Stable Diffusion。　　2025 年 2 月 8 日，QuestMobile 数据显示，DeepSeek 在1 月 28 日的日活跃用户数首次超越豆包，随后在 2 月 1 日突破 3000 万大关，成为截至 2025 年 2 月史上最快达成这一里程碑的应用。　　（二）模型迭代历程　　中国初创企业深度求索（DeepSeek）研发大语言模型时据报绕过了美国人工智能巨头英伟达的 CUDA 框架，为DeepSeek 在未来适配中国国产晶片做好准备。　　DeepSeek 通过优化算法架构，显著提升了算力利用效率，打破了算力至上的传统认知。DeepSeek-R1 的惊艳之处是通过重新设计训练流程、以少量 SFT 数据+ 多轮强化学习的办法，在提高了模型准确性的同时，也显著降低了内存占用和计算开销。 DeepSeek-R1 的效果示意：更少的 GPU（或其他AI 芯片）带来同样的效果高 DeepSeek-R1 提供了一种低成本训练的方法，而不是说只能通过低成本来进行训练。DeepSeek-R1 反而通过优化，DeepSeek-R1 可能实现了算力与性能的近似线性关系。每增加一张 GPU，模型推理能力可稳定提升，无需依赖复杂的外部监督机制。这一特性直接验证了“算力即性能”的 Scaling Law，为 AI 芯片市场及 AI Infra市场提供了明确的增量需求逻辑。　　DS 不仅在推理模型上实现了突破，在多模态方面也保持了进步，并于近日开源发布了 Janus-Pro 多模态模型。基于算法工程方面的优化，DS 能够实现性价比更高的模型推理能力（价格低、效率高、性能强、可部署在端侧平台），并有望以强大的推理能力和多模态感知能力，重塑机器人交互与决策，同时通过低成本、高效率的解决方案，加速具身智能的普及与应用。

成为VIP会员查看完整内容

相关内容

DeepSeek

关注 42

深度求索（DeepSeek），全称杭州深度求索人工智能基础技术研究有限公司，是中国的一家人工智能与大型语言模型公司。2025年1月10日，DeepSeek为iOS和安卓系统发布其首款免费的基于DeepSeek-R1模型聊天机器人程序。截止到27日，DeepSeek-R1超过ChatGPT成为美区iOS应用商店免费应用程序榜首[3]，并导致英伟达股价大跌18%[4][5]。DeepSeek成功挑战实力更强、更为著名的竞品从而被认为是颠覆人工智能[6]、打响了全球人工智能领域竞赛的第一枪[7]、引领人工智能下边缘政策新纪元

117页《DeepSeek完全实用手册1.0版：从技术原理到使用技巧》

专知会员服务

62+阅读 · 3月4日

AI大模型赋能千行百业（附下载，117页）

专知会员服务

180+阅读 · 2023年7月20日

AI 大模型市场研究报告（2023），43页pdf

专知会员服务

235+阅读 · 2023年5月10日

《颠覆性技术研究报告》200页报告

专知会员服务

79+阅读 · 2023年3月24日