DeepSeek 大模型背景 (一)深度求索公司情况 DeepSeek,全称“杭州深度求索人工智能基础技术研究有限公司”,简称“深度求索”,于 2023 年 7 月 17 日由幻方量化创立,位于杭州市拱墅区,是一家创新型科技公司,专注于开发先进的大语言模型(LLM)和相关技术,法定代表人、执行董事兼总经理为裴湉。 2024 年 1 月 5 日,该公司发布第一个大模型 DeepSeekLLM。之后,相继发布 DeepSeek-Coder、DeepSeek-VL、DeepSeek V2、DeepSeek V3 等模型。其中,DeepSeek V2 模型因在中文综合能力评测中的出色表现,且以极低的推理成本引发行业关注,被称为“AI 界的拼多多”。2025 年 1 月 20日,该公司正式发布 DeepSeek-R1 模型,并同步开源模型权重。DeepSeek-R1 性能逼近 OpenAI o1 正式版,推理成本却仅为 OpenAI o1 的几十分之一。1 月 27 日,DeepSeek 应用登顶苹果美国地区应用商店免费 App 下载排行榜,在美区下载榜上超越了 ChatGPT。同日,苹果中国区应用商店免费榜显示,DeepSeek 成为中国区第一。1 月 28 日,DeepSeek 发布开源多模态模型 Janus-Pro,其中 70 亿参数版本的 JanusPro-7B 模型在使用文本提示的图像生成排行榜中优于OpenAI 的 DALL-E 3 和 Stability AI 的 Stable Diffusion。 2025 年 2 月 8 日,QuestMobile 数据显示,DeepSeek 在1 月 28 日的日活跃用户数首次超越豆包,随后在 2 月 1 日突破 3000 万大关,成为截至 2025 年 2 月史上最快达成这一里程碑的应用。 (二)模型迭代历程 中国初创企业深度求索(DeepSeek)研发大语言模型时据报绕过了美国人工智能巨头英伟达的 CUDA 框架,为DeepSeek 在未来适配中国国产晶片做好准备。 DeepSeek 通过优化算法架构,显著提升了算力利用效率,打破了算力至上的传统认知。DeepSeek-R1 的惊艳之处是通过重新设计训练流程、以少量 SFT 数据+ 多轮强化学习的办法,在提高了模型准确性的同时,也显著降低了内存占用和计算开销。 DeepSeek-R1 的效果示意:更少的 GPU(或其他AI 芯片)带来同样的效果高 DeepSeek-R1 提供了一种低成本训练的方法,而不是说只能通过低成本来进行训练。DeepSeek-R1 反而通过优化,DeepSeek-R1 可能实现了算力与性能的近似线性关系。每增加一张 GPU,模型推理能力可稳定提升,无需依赖复杂的外部监督机制。这一特性直接验证了“算力即性能”的 Scaling Law,为 AI 芯片市场及 AI Infra市场提供了明确的增量需求逻辑。 DS 不仅在推理模型上实现了突破,在多模态方面也保持了进步,并于近日开源发布了 Janus-Pro 多模态模型。基于算法工程方面的优化,DS 能够实现性价比更高的模型推理能力(价格低、效率高、性能强、可部署在端侧平台),并有望以强大的推理能力和多模态感知能力,重塑机器人交互与决策,同时通过低成本、高效率的解决方案,加速具身智能的普及与应用。