DeepSeek通过创新算法使推理效率大幅优化,大幅降低了应用成本。DeepSeek-V3的训练成本仅为2.788MH800GPU小时,同时其支持FP8混合精度训练,并针对训练框架进行了全面优化,以实现加速训练和降低GPU内存使用,通过算法、框架和硬件的共同设计,克服了跨节点MoE训练中的通信瓶颈,显著提高了训练效率并降低了训练成本。DeepSeek每百万输入tokens成本为0.55美元,每百万输出tokens成本为2.19美元,相较于ChatGPTO1模型,输入和输出成本均降低了96%。DeepSeek-V3采用了多头潜在注意力(Multi-head Latent Attention,MLA)和DeepSeekMoE架构,显著提高了推理速度和显存利用率,能够在保持模型性能的同时实现高效的训练和推理。   DeepSeek从成本端和技术端对垂类AI小模型(AIAgent)带来了直接催化。从成本端看,更低的推理成本降低了垂类AIAgent的开发成本,极大刺激了各行业的企业智能化需求。技术端看,Deepseek在自然语言理解、多模态交互等底层技术上的突破直接降低了垂直领域小模型的技术门槛,其开源的分布式训练框架等技术能够被小模型复用。同时,Deepseek的模型知识蒸馏等压缩技术使小模型既能继承大模型能力,又保持轻量化特性。对数据实时性敏感的垂类AIagent需要在感知端和云端快速传递数据,对低时延高带宽网络提出要求,同时小模型下沉到中小企业,进一步带来了网络通信基础设施需求,对交换机、边缘计算设备、5G切片等带来新需求。   光模块等需求来源从训练转向推理,带来多场景适配需求。虽然单次训练任务的算力需求降低,但模型轻量化可能推动分布式训练和边缘计算的普及,导致数据中心内部短距连接需求从集中式超算集群转向更分散的节点间通信。机架内光模块对于高密度计算仍需要低延迟、高带宽的互连,800G模块需求可能受分布式架构的推动;而在边缘场景,短距光模块在边缘服务器的部署比例可能上升,但单点用量低于传统超算中心。同时,技术替代效应强于需求收缩,CPO的核心价值在于解决传统可插拔光模块的功耗和密度瓶颈,即使算力需求下降,但对于能效比要求、空间压缩要求、降低成本要求仍可能驱动其渗透率提升。

成为VIP会员查看完整内容
45

相关内容

深度求索(DeepSeek),全称杭州深度求索人工智能基础技术研究有限公司,是中国的一家人工智能与大型语言模型公司。2025年1月10日,DeepSeek为iOS和安卓系统发布其首款免费的基于DeepSeek-R1模型聊天机器人程序。截止到27日,DeepSeek-R1超过ChatGPT成为美区iOS应用商店免费应用程序榜首[3],并导致英伟达股价大跌18%[4][5]。DeepSeek成功挑战实力更强、更为著名的竞品从而被认为是颠覆人工智能[6]、打响了全球人工智能领域竞赛的第一枪[7]、引领人工智能下边缘政策新纪元
2024年中国AI大模型场景探索及产业应用调研报告
专知会员服务
70+阅读 · 2024年9月6日
ICLR'24 大语言模型智能体最新研究进展
专知会员服务
92+阅读 · 2023年10月20日
AIGC干货报告:2023年AIGC行业调研报告(附下载,70页)
专知会员服务
89+阅读 · 2023年9月1日
【ChatGPT系列报告】AI 大模型在自动驾驶中的应用
专知会员服务
89+阅读 · 2023年5月5日
未来网络白皮书——SmartNIC/DPU技术白皮书
专知会员服务
79+阅读 · 2022年8月31日
6G中联邦学习的应用、挑战和机遇
专知会员服务
52+阅读 · 2022年3月14日
专知会员服务
64+阅读 · 2021年5月2日
英伟达Faster Transformer:作者带你揭秘BERT优化
机器之心
14+阅读 · 2019年9月18日
8篇论文梳理BERT相关模型进展与反思 | MSRA出品
量子位
11+阅读 · 2019年9月15日
大数据分析研究组开源Easy Machine Learning系统
中国科学院网络数据重点实验室
17+阅读 · 2017年6月13日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月23日
Arxiv
165+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
440+阅读 · 2023年3月31日
Arxiv
23+阅读 · 2023年3月17日
Arxiv
26+阅读 · 2019年3月5日
VIP会员
相关VIP内容
2024年中国AI大模型场景探索及产业应用调研报告
专知会员服务
70+阅读 · 2024年9月6日
ICLR'24 大语言模型智能体最新研究进展
专知会员服务
92+阅读 · 2023年10月20日
AIGC干货报告:2023年AIGC行业调研报告(附下载,70页)
专知会员服务
89+阅读 · 2023年9月1日
【ChatGPT系列报告】AI 大模型在自动驾驶中的应用
专知会员服务
89+阅读 · 2023年5月5日
未来网络白皮书——SmartNIC/DPU技术白皮书
专知会员服务
79+阅读 · 2022年8月31日
6G中联邦学习的应用、挑战和机遇
专知会员服务
52+阅读 · 2022年3月14日
专知会员服务
64+阅读 · 2021年5月2日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员