DeepSeek技术溯源及前沿探索 - 专知VIP

会员服务 ·

7

DeepSeek · 多头自注意力 ·

DeepSeek技术溯源及前沿探索

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

Transformer：理论架构创新　　自注意力机制：支持并行计算/全局上下文的理解能力　　多头注意力：从多个角度捕捉复杂的语义关系　　前馈网络/位置编码/层归一化：解决了传统模型的诸多局限性　　预训练时代：大力出奇迹（“暴力美学”）　　BERT：Bidirectional Encoder Representations Transformers 　　GPT: Generative Pertained Transformer 　　自监督算法：MLM/NTP/MAE解决海量数据标注问题　

成为VIP会员查看完整内容

13

相关内容

DeepSeek

深度求索（DeepSeek），全称杭州深度求索人工智能基础技术研究有限公司，是中国的一家人工智能与大型语言模型公司。2025年1月10日，DeepSeek为iOS和安卓系统发布其首款免费的基于DeepSeek-R1模型聊天机器人程序。截止到27日，DeepSeek-R1超过ChatGPT成为美区iOS应用商店免费应用程序榜首[3]，并导致英伟达股价大跌18%[4][5]。DeepSeek成功挑战实力更强、更为著名的竞品从而被认为是颠覆人工智能[6]、打响了全球人工智能领域竞赛的第一枪[7]、引领人工智能下边缘政策新纪元

DS系列专题：DeepSeek技术溯源及前沿探索，50页ppt

DS系列专题：DeepSeek技术溯源及前沿探索，50页ppt

专知会员服务

48+阅读 · 3月26日

DeepSeek模型关键创新技术综述

DeepSeek模型关键创新技术综述

专知会员服务

44+阅读 · 3月21日

从DeepSeek看国产AI的“后发优势”

从DeepSeek看国产AI的“后发优势”

专知会员服务

28+阅读 · 2月28日

多智能体深度强化学习研究进展

多智能体深度强化学习研究进展

专知会员服务

68+阅读 · 2024年7月17日

Transformer的无限之路：位置编码视角下的长度外推综述

Transformer的无限之路：位置编码视角下的长度外推综述

专知会员服务

44+阅读 · 2024年1月17日

ICLR'24 大语言模型智能体最新研究进展

ICLR'24 大语言模型智能体最新研究进展

专知会员服务

94+阅读 · 2023年10月20日

调查分析两百余篇大模型论文，数十位研究者一文综述RLHF的挑战与局限

调查分析两百余篇大模型论文，数十位研究者一文综述RLHF的挑战与局限

专知会员服务

49+阅读 · 2023年8月1日

如何走向AGI？DeepMind研究科学家Jack 牛津博士论文《迈向真正开放式强化学习》探究解答，217页pdf

如何走向AGI？DeepMind研究科学家Jack 牛津博士论文《迈向真正开放式强化学习》探究解答，217页pdf

专知会员服务

88+阅读 · 2023年4月22日

ChatGPT 背后的“功臣”——RLHF 技术详解

ChatGPT 背后的“功臣”——RLHF 技术详解

专知会员服务

169+阅读 · 2023年2月21日

Nat Rev Mol Cell Bio｜用人工智能预测蛋白质结构的前景和机遇

Nat Rev Mol Cell Bio｜用人工智能预测蛋白质结构的前景和机遇

专知会员服务

19+阅读 · 2022年5月1日

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知

37+阅读 · 2020年7月2日

知识图谱最新研究综述

知识图谱最新研究综述

深度学习自然语言处理

45+阅读 · 2020年6月14日

图灵奖Yoshua Bengio ICLR 2020再出新作：通过元学习发掘因果机制

图灵奖Yoshua Bengio ICLR 2020再出新作：通过元学习发掘因果机制

学术头条

15+阅读 · 2019年12月25日

多项NLP任务新SOTA，Facebook提出预训练模型BART

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

【AutoML】自动机器学习：最近进展研究综述 AutoML：A survey of State-of-the-art

【AutoML】自动机器学习：最近进展研究综述 AutoML：A survey of State-of-the-art

产业智能官

15+阅读 · 2019年8月13日

【NLP】万字长文概述NLP中的深度学习技术

【NLP】万字长文概述NLP中的深度学习技术

产业智能官

18+阅读 · 2019年7月7日

万字长文概述NLP中的深度学习技术

万字长文概述NLP中的深度学习技术

全球人工智能

12+阅读 · 2019年2月28日

深度学习与计算机视觉任务应用综述

深度学习与计算机视觉任务应用综述

深度学习与NLP

50+阅读 · 2018年12月18日

漫谈机器阅读理解之Facebook提出的DrQA系统

漫谈机器阅读理解之Facebook提出的DrQA系统

深度学习每日摘要

18+阅读 · 2017年11月19日

Word2Vec 与 GloVe 技术浅析与对比

Word2Vec 与 GloVe 技术浅析与对比

LibRec智能推荐

25+阅读 · 2017年5月15日

城市“建成环境——空间行为”的多尺度影响关系与机理研究

国家自然科学基金

11+阅读 · 2017年12月31日

语义Web知识库补全关键技术研究

国家自然科学基金

14+阅读 · 2017年12月31日

DMB信号水汽探测方法若干问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

大规模模糊RDF数据管理关键技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

CGF战场空间认知行为建模研究

国家自然科学基金

47+阅读 · 2014年12月31日

动态Gr？bner 基与GVW算法

国家自然科学基金

0+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

1+阅读 · 2014年12月31日

基于UGC的应急响应决策支持系统关键技术研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于BIM的建筑生命周期环境与经济评价及优化设计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

A survey and taxonomy of loss functions in machine learning

Arxiv

24+阅读 · 2023年1月13日

Learning with Differentiable Algorithms

Arxiv

11+阅读 · 2022年9月1日

On Neural Differential Equations

Arxiv

23+阅读 · 2022年2月4日

A Survey of Knowledge Enhanced Pre-trained Models

Arxiv

28+阅读 · 2021年10月1日

The Modern Mathematics of Deep Learning

Arxiv

49+阅读 · 2021年5月9日

Graph Contrastive Learning with Adaptive Augmentation

Arxiv

10+阅读 · 2021年2月26日

The Deep Learning Compiler: A Comprehensive Survey

Arxiv

15+阅读 · 2020年2月6日

Phase-aware Speech Enhancement with Deep Complex U-Net

Phase-aware Speech Enhancement with Deep Complex U-Net

Arxiv

15+阅读 · 2019年3月7日

Deep learning in agriculture: A survey

Arxiv

11+阅读 · 2018年7月31日

Relational Deep Reinforcement Learning

Relational Deep Reinforcement Learning

Arxiv

10+阅读 · 2018年6月28日

VIP会员

相关主题

多头自注意力

相关VIP内容

DS系列专题：DeepSeek技术溯源及前沿探索，50页ppt

DS系列专题：DeepSeek技术溯源及前沿探索，50页ppt

专知会员服务

48+阅读 · 3月26日

DeepSeek模型关键创新技术综述

DeepSeek模型关键创新技术综述

专知会员服务

44+阅读 · 3月21日

从DeepSeek看国产AI的“后发优势”

从DeepSeek看国产AI的“后发优势”

专知会员服务

28+阅读 · 2月28日

多智能体深度强化学习研究进展

多智能体深度强化学习研究进展

专知会员服务

68+阅读 · 2024年7月17日

Transformer的无限之路：位置编码视角下的长度外推综述

Transformer的无限之路：位置编码视角下的长度外推综述

专知会员服务

44+阅读 · 2024年1月17日

ICLR'24 大语言模型智能体最新研究进展

ICLR'24 大语言模型智能体最新研究进展

专知会员服务

94+阅读 · 2023年10月20日

调查分析两百余篇大模型论文，数十位研究者一文综述RLHF的挑战与局限

调查分析两百余篇大模型论文，数十位研究者一文综述RLHF的挑战与局限

专知会员服务

49+阅读 · 2023年8月1日

如何走向AGI？DeepMind研究科学家Jack 牛津博士论文《迈向真正开放式强化学习》探究解答，217页pdf

如何走向AGI？DeepMind研究科学家Jack 牛津博士论文《迈向真正开放式强化学习》探究解答，217页pdf

专知会员服务

88+阅读 · 2023年4月22日

ChatGPT 背后的“功臣”——RLHF 技术详解

ChatGPT 背后的“功臣”——RLHF 技术详解

专知会员服务

169+阅读 · 2023年2月21日

Nat Rev Mol Cell Bio｜用人工智能预测蛋白质结构的前景和机遇

Nat Rev Mol Cell Bio｜用人工智能预测蛋白质结构的前景和机遇

专知会员服务

19+阅读 · 2022年5月1日

热门VIP内容

开通专知VIP会员享更多权益服务

云智算技术白皮书（2025）

从推理到学习：基于大语言模型的假设发现与规则学习综述

基于神经网络的图像风格迁移算法综述

【CMU博士论文】《迈向实用的时间序列智能》

相关资讯

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知

37+阅读 · 2020年7月2日

知识图谱最新研究综述

知识图谱最新研究综述

深度学习自然语言处理

45+阅读 · 2020年6月14日

图灵奖Yoshua Bengio ICLR 2020再出新作：通过元学习发掘因果机制

图灵奖Yoshua Bengio ICLR 2020再出新作：通过元学习发掘因果机制

学术头条

15+阅读 · 2019年12月25日

多项NLP任务新SOTA，Facebook提出预训练模型BART

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

【AutoML】自动机器学习：最近进展研究综述 AutoML：A survey of State-of-the-art

【AutoML】自动机器学习：最近进展研究综述 AutoML：A survey of State-of-the-art

产业智能官

15+阅读 · 2019年8月13日

【NLP】万字长文概述NLP中的深度学习技术

【NLP】万字长文概述NLP中的深度学习技术

产业智能官

18+阅读 · 2019年7月7日

万字长文概述NLP中的深度学习技术

万字长文概述NLP中的深度学习技术

全球人工智能

12+阅读 · 2019年2月28日

深度学习与计算机视觉任务应用综述

深度学习与计算机视觉任务应用综述

深度学习与NLP

50+阅读 · 2018年12月18日

漫谈机器阅读理解之Facebook提出的DrQA系统

漫谈机器阅读理解之Facebook提出的DrQA系统

深度学习每日摘要

18+阅读 · 2017年11月19日

Word2Vec 与 GloVe 技术浅析与对比

Word2Vec 与 GloVe 技术浅析与对比

LibRec智能推荐

25+阅读 · 2017年5月15日

相关基金

城市“建成环境——空间行为”的多尺度影响关系与机理研究

国家自然科学基金

11+阅读 · 2017年12月31日

语义Web知识库补全关键技术研究

国家自然科学基金

14+阅读 · 2017年12月31日

DMB信号水汽探测方法若干问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

大规模模糊RDF数据管理关键技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

CGF战场空间认知行为建模研究

国家自然科学基金

47+阅读 · 2014年12月31日

动态Gr？bner 基与GVW算法

国家自然科学基金

0+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

1+阅读 · 2014年12月31日

基于UGC的应急响应决策支持系统关键技术研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于BIM的建筑生命周期环境与经济评价及优化设计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

相关论文

A survey and taxonomy of loss functions in machine learning

Arxiv

24+阅读 · 2023年1月13日

Learning with Differentiable Algorithms

Arxiv

11+阅读 · 2022年9月1日

On Neural Differential Equations

Arxiv

23+阅读 · 2022年2月4日

A Survey of Knowledge Enhanced Pre-trained Models

Arxiv

28+阅读 · 2021年10月1日

The Modern Mathematics of Deep Learning

Arxiv

49+阅读 · 2021年5月9日

Graph Contrastive Learning with Adaptive Augmentation

Arxiv

10+阅读 · 2021年2月26日

The Deep Learning Compiler: A Comprehensive Survey

Arxiv

15+阅读 · 2020年2月6日

Phase-aware Speech Enhancement with Deep Complex U-Net

Phase-aware Speech Enhancement with Deep Complex U-Net

Arxiv

15+阅读 · 2019年3月7日

Deep learning in agriculture: A survey

Arxiv

11+阅读 · 2018年7月31日

Relational Deep Reinforcement Learning

Relational Deep Reinforcement Learning

Arxiv

10+阅读 · 2018年6月28日

微信扫码咨询专知VIP会员