TJUNLP
本文分享内容来源于天津大学举办的“人工智能实践能力提升行动——DeepSeek 专题报告”活动中熊德意教授所做的主题报告,如需获取完整ppt,请在公众号窗口回复“TJUNLP-DeepSeek”即可下载。
【报告内容简介】
2025年2月,天津大学熊德意教授在天津大学“人工智能实践能力提升行动——DeepSeek 专题报告”活动上进行了题为“深度解读DeepSeek:从原理到模型”的主题报告。扫码即可观看报告视频回放。
报告中,熊德意教授系统剖析了DeepSeek的技术架构与创新优势。他首先探讨了生成式AI发展的黄金10年,分析了支撑生成式AI的五大技术突破;描绘了过去几年大语言模型发展的技术路径图,指出大语言发展至今两大问题:扩展法则是否到头了,推理模型如何实现。 在报告分享的第二部分,熊德意教授深入解读了DeepSeek的技术迭代路线、原理和创新,指出DeepSeek系列模型围绕模型架构和推理模型,通过算法和技术创新,以极低的训练成本实现与全球顶尖模型的性能对齐,其开源生态与推理能力为科研智能化提供了坚实基础;在剖析R1技术中,熊德意教授从扩展性及竞争策略角度分析了MCTS+PRM实现推理模型可能是一条无法扩展的路线,指出DeepSeek-R1在业内首次公开通过大规模强化学习探索出推理能力涌现的技术路线;在分析DeepSeek技术创新程度时,熊德意教授指出,DeepSeek在模型架构方面围绕降本增效大胆魔改模型底层架构和训练算法,成功绕过了美国通过芯片三级管控禁令设置的算力护城河,DeepSeek R1的开源发布进一步打破了美国第一梯队企业闭源形成的技术护城河,从而动摇了美国“AI Dominance”的两大基础。 在第三部分解读DeepSeek效应时,熊德意教授进一步探讨了DeepSeek技术创新背后的深层原因,指出0-1****的创新突破需要大模型技术型人才与战略性人才紧密合作。指出现阶段虽然取得了重大突破,但仍然要保持清醒,未来还需要进行更多的探明方向及未探明方向的0-1突破。 在最后展望部分,熊德意教授分享了他在TJUNLP实验室2024年终总结和2025展望会上的两页slides,提到实现AGI可能还需要3-5个重大突破;指出DeepSeek推理模型仍在快速迭代中,R2/R3可能很快推出,将有力支撑科学研究第五范式:智能驱动的科学研究范式;同时提到,AI安全是不容忽视的重大问题,推理能力应该和AI安全防控相结合。 报告PPT还提供了TJUNLP基于自研大模型评测基准数据实测DeepSeek R1逻辑推理及自主性AI风险的评测结果。
DeepSeek原理与效应