DeepSeek技术溯源及前沿探索

Transformer：理论架构创新　　自注意力机制：支持并行计算/全局上下文的理解能力　　多头注意力：从多个角度捕捉复杂的语义关系　　前馈网络/位置编码/层归一化：解决了传统模型的诸多局限性　　预训练时代：大力出奇迹（“暴力美学”）　　BERT：Bidirectional Encoder Representations Transformers 　　GPT: Generative Pertained Transformer 　　自监督算法：MLM/NTP/MAE解决海量数据标注问题　

成为VIP会员查看完整内容

相关内容

DeepSeek

关注 50

深度求索（DeepSeek），全称杭州深度求索人工智能基础技术研究有限公司，是中国的一家人工智能与大型语言模型公司。2025年1月10日，DeepSeek为iOS和安卓系统发布其首款免费的基于DeepSeek-R1模型聊天机器人程序。截止到27日，DeepSeek-R1超过ChatGPT成为美区iOS应用商店免费应用程序榜首[3]，并导致英伟达股价大跌18%[4][5]。DeepSeek成功挑战实力更强、更为著名的竞品从而被认为是颠覆人工智能[6]、打响了全球人工智能领域竞赛的第一枪[7]、引领人工智能下边缘政策新纪元

DS系列专题：DeepSeek技术溯源及前沿探索，50页ppt

专知会员服务

51+阅读 · 3月26日

DeepSeek模型关键创新技术综述

专知会员服务

48+阅读 · 3月21日

调查分析两百余篇大模型论文，数十位研究者一文综述RLHF的挑战与局限

专知会员服务

49+阅读 · 2023年8月1日

ChatGPT 背后的“功臣”——RLHF 技术详解

专知会员服务

169+阅读 · 2023年2月21日