该文档围绕人工智能大模型展开,重点介绍了 DeepSeek 相关技术与应用,涵盖概念辨析、模型解析、原理阐述和落地应用等方面,展示了 DeepSeek 在大模型领域的技术实力和广泛应用前景。 人工智能概念辨析 * 大模型相关术语:介绍多模态概念,列举国内 AI 工具,区分通用模型和行业模型,并列举各类模型的代表产品。 * 大模型的发展历程:梳理人工智能从运算推理、知识工程、机器学习到深度学习的发展脉络,介绍 Transformer、Diffusion 等架构及相关模型,如 GPT、Claude 等。
大模型的发展阶段:划分大模型发展的准备期、跃进期、深化期和繁荣期,阐述各阶段国内外关键进展,对比生成模型和推理模型。
DeepSeek R1 * 公司概况:2023 年 7 月成立,获幻方量化支持,专注大语言模型研发,2025 年 1 月推出 DeepSeek - R1 推理模型。 * 模型系列及对比:介绍 DeepSeek 系列模型,对比生成模型 V3 和推理模型 R1 的设计初衷、性能、应用范围。 * R1 优势:推理能力强,跻身全球第一梯队;开源训练代码等;训练和推理成本低;国产化,缩短与美国技术差距。 * 使用方式:可通过网页、官方 APP、API、第三方渠道及私有化部署(如 Ollama、vLLM)使用。
模型原理 * GPT 工作原理:基于 Transformer 架构,经预训练、监督微调、人类反馈强化学习,处理输入并生成输出,数据源于多种渠道。 * 生成模型优缺点:优势是语言理解等能力强,劣势是存在幻觉、知识库有限、上下文窗口受限。 * DeepSeek - R1 原理:通过思维链、强化学习、蒸馏技术,提升推理能力,缩小模型规模。
落地应用 * 提示词技巧:包括真诚直接、通用公式、说人话、反向 PUA、善于模仿、擅长锐评、激发深度思考等,不同场景适用不同技巧。 * 应用场景:适用于推理密集型任务、教育与知识应用、文档分析等,在商业创新、生活服务等领域也有广泛应用。 * 教育与学术赋能:可用于教学设计、教学活动、作业批改等多个教学环节,还能辅助医学病理诊断、论文写作等学术研究。