DeepSeek发展突飞猛进,领跑开源大模型技术与生态,DeepSeek模型已成为全球现象级模型。DeepSeek(深度求索)公司成立于2023年7月,是一家致力于实现通用人工智能(AGI)的创新型科技公司。2024年12月,DeepSeek-V3发布,性能对齐海外领军闭源模型。据官方技术论文披露,V3模型的总训练成本为557.6万美元,对比GPT-4o等模型的训练成本约为1亿美元。2025年1月,DeepSeek-R1发布,性能对标OpenAI-o1正式版。在数学、代码、自然语言推理等任务上,性能比肩OpenAI-o1正式版。2月1日消息,据彭博社报道,DeepSeek的人工智能助手在140个市场下载次数最多的移动应用程序排行榜上名列前茅。国外大型科技公司如微软、英伟达、亚马逊等已先后上线部署支持用户访问DeepSeek-R1模型。2月1日,华为云官方发布消息,硅基流动和华为云团队联合首发并上线基于华为云昇腾云服务的DeepSeekR1/V3推理服务。   DeepSeek通过MLA和DeepSeekMoE实现高效的推理和低成本训练,构建DualPipe算法和混合精度训练优化计算与通信负载;通过(分阶段)强化学习实现性能突破。多头潜在注意力(MLA)通过低秩联合压缩技术,大幅削减了注意力键(keys)和值(values)的存储空间,显著降低了内存需求。DeepSeekMoE架构采用了更为精细粒度的专家设置,能够更加灵活且高效地调配资源,进一步提升了整体的运行效率和表现。DeepSeek模型对跨节点的全对全通信机制进行优化,充分利用InfiniBand和NVLink提供的高带宽。创新性提出了DualPipe算法,通过优化计算与通信的重叠,有效减少了流水线中的空闲时间。采用FP8混合精度训练技术,不仅极大地加快了训练速度,还大幅降低了GPU内存的消耗。DeepSeek-R1-Zero通过强化学习架构创新实现突破性性能,核心技术创新体现在训练效能优化策略、双维度评价体系、结构化训练范式三个维度。DeepSeek-R1采用分阶段强化学习架构演进,包括冷启动阶段、面向推理的强化学习、拒绝采样与监督式微调、全场景强化学习等。   AI应用爆发在即,算力需求持续攀升,关注ASIC及服务器产业链。ScalingLaw与“涌现”能力是大模型训练遵循的重要法则,随着ChatGPT引领全球AI浪潮,国内外科技公司纷纷发布AI大模型,截至24年7月,全球AI大模型数量约1328个(其中美国位居第一位,占比44%;中国位居第二位,占比36%),模型的迭代加速、竞争加剧。同时,AI模型向多模态全方位转变,AI应用百花齐放,企业主动拥抱AI应用市场。因此,模型数量、模型参数、数据总量的持续增长及AI应用需求推动全球算力爆发式增长。在英伟达GPU随着架构的不断演进及算力的成倍增长,于AI大模型训练中得到广泛运用的同时,为了满足CSP客户更高性能和更好功能的需求,定制化芯片ASIC的需求持续提升,牧本钟摆从标准化逐渐摆向定制化。与之相应的算力基础设施持续建设和升级,促使国内外云服务商资本开支持续高速增长,带来AI服务器市场规模大幅提升,预计到26年全球AI服务器出货量将达到237万台,对应2023-2026年CAGR为26%。  

成为VIP会员查看完整内容
4

相关内容

AI进化加速端侧落地,新一轮换机潮蓄势待发
专知会员服务
35+阅读 · 2024年6月21日
2024生成式AI产业落地路径研究报告
专知会员服务
67+阅读 · 2024年5月22日
AI大模型风起云涌,半导体与光模块长期受益
专知会员服务
29+阅读 · 2024年3月14日
AIGC行业趋势:Sora横空出世,向多模态应用加速迈进
专知会员服务
70+阅读 · 2024年2月22日
大模型专题报告:百模渐欲迷人眼,AI应用繁花开,42页pdf
电子行业深度报告:边缘域AI的“寒武大爆发”
专知会员服务
47+阅读 · 2023年8月10日
【ChatGPT系列报告】AIGC行业追踪框架
专知会员服务
81+阅读 · 2023年4月23日
ChatGPT与AIGC深度报告:引领AI新浪潮,AIGC商业化启程
专知会员服务
183+阅读 · 2023年2月9日
重磅!AI框架发展白皮书(2022年),44页pdf
专知
27+阅读 · 2022年2月27日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
43+阅读 · 2019年10月16日
图说报告 | “智能+”的终极版图:数字孪生世界
人工智能学家
22+阅读 · 2019年8月20日
AI产业链分布图曝光:1040个玩家,BAT率先步入应用
全球人工智能
20+阅读 · 2019年5月11日
【团队新作】深度强化学习进展: 从AlphaGo到AlphaGo Zero
中国科学院自动化研究所
17+阅读 · 2018年1月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
164+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
427+阅读 · 2023年3月31日
Arxiv
156+阅读 · 2023年3月24日
Arxiv
22+阅读 · 2023年3月17日
VIP会员
相关VIP内容
AI进化加速端侧落地,新一轮换机潮蓄势待发
专知会员服务
35+阅读 · 2024年6月21日
2024生成式AI产业落地路径研究报告
专知会员服务
67+阅读 · 2024年5月22日
AI大模型风起云涌,半导体与光模块长期受益
专知会员服务
29+阅读 · 2024年3月14日
AIGC行业趋势:Sora横空出世,向多模态应用加速迈进
专知会员服务
70+阅读 · 2024年2月22日
大模型专题报告:百模渐欲迷人眼,AI应用繁花开,42页pdf
电子行业深度报告:边缘域AI的“寒武大爆发”
专知会员服务
47+阅读 · 2023年8月10日
【ChatGPT系列报告】AIGC行业追踪框架
专知会员服务
81+阅读 · 2023年4月23日
ChatGPT与AIGC深度报告:引领AI新浪潮,AIGC商业化启程
专知会员服务
183+阅读 · 2023年2月9日
相关资讯
重磅!AI框架发展白皮书(2022年),44页pdf
专知
27+阅读 · 2022年2月27日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
43+阅读 · 2019年10月16日
图说报告 | “智能+”的终极版图:数字孪生世界
人工智能学家
22+阅读 · 2019年8月20日
AI产业链分布图曝光:1040个玩家,BAT率先步入应用
全球人工智能
20+阅读 · 2019年5月11日
【团队新作】深度强化学习进展: 从AlphaGo到AlphaGo Zero
中国科学院自动化研究所
17+阅读 · 2018年1月31日
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员