Transformer:理论架构创新   自注意力机制:支持并行计算/全局上下文的理解能力   多头注意力:从多个角度捕捉复杂的语义关系   前馈网络/位置编码/层归一化:解决了传统模型的诸多局限性   预训练时代:大力出奇迹(“暴力美学”)   BERT:Bidirectional Encoder Representations Transformers   GPT: Generative Pertained Transformer   自监督算法:MLM/NTP/MAE解决海量数据标注问题  

成为VIP会员查看完整内容
34

相关内容

深度求索(DeepSeek),全称杭州深度求索人工智能基础技术研究有限公司,是中国的一家人工智能与大型语言模型公司。2025年1月10日,DeepSeek为iOS和安卓系统发布其首款免费的基于DeepSeek-R1模型聊天机器人程序。截止到27日,DeepSeek-R1超过ChatGPT成为美区iOS应用商店免费应用程序榜首[3],并导致英伟达股价大跌18%[4][5]。DeepSeek成功挑战实力更强、更为著名的竞品从而被认为是颠覆人工智能[6]、打响了全球人工智能领域竞赛的第一枪[7]、引领人工智能下边缘政策新纪元
DS系列专题:DeepSeek技术溯源及前沿探索,50页ppt
专知会员服务
51+阅读 · 3月26日
DeepSeek模型关键创新技术综述
专知会员服务
48+阅读 · 3月21日
ChatGPT 背后的“功臣”——RLHF 技术详解
专知会员服务
169+阅读 · 2023年2月21日
知识图谱最新研究综述
深度学习自然语言处理
45+阅读 · 2020年6月14日
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
Word2Vec 与 GloVe 技术浅析与对比
LibRec智能推荐
25+阅读 · 2017年5月15日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
24+阅读 · 2022年2月4日
Arxiv
10+阅读 · 2021年2月26日
Phase-aware Speech Enhancement with Deep Complex U-Net
Arxiv
11+阅读 · 2018年7月31日
VIP会员
相关VIP内容
DS系列专题:DeepSeek技术溯源及前沿探索,50页ppt
专知会员服务
51+阅读 · 3月26日
DeepSeek模型关键创新技术综述
专知会员服务
48+阅读 · 3月21日
ChatGPT 背后的“功臣”——RLHF 技术详解
专知会员服务
169+阅读 · 2023年2月21日
相关资讯
知识图谱最新研究综述
深度学习自然语言处理
45+阅读 · 2020年6月14日
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
Word2Vec 与 GloVe 技术浅析与对比
LibRec智能推荐
25+阅读 · 2017年5月15日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
相关论文
Arxiv
24+阅读 · 2022年2月4日
Arxiv
10+阅读 · 2021年2月26日
Phase-aware Speech Enhancement with Deep Complex U-Net
Arxiv
11+阅读 · 2018年7月31日
微信扫码咨询专知VIP会员