如何训练与微调大型语言模型？这份指南细到技术细节公式，17页pdf - 专知VIP

会员服务 ·

54

大型语言模型 · 大模型 ·

2023 年 9 月 16 日

如何训练与微调大型语言模型？这份指南细到技术细节公式，17页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

这篇博客解释了如何训练和微调大型语言模型（LLMs）以创建像Chat-GPT这样的系统。我们将讨论模型的预训练、少样本学习、有监督微调、基于人类反馈的强化学习（RLHF）以及直接偏好优化。我们之前的博客以高层次地介绍了这些观点。在本文中，我们力图让这些概念在数学上更为精确，并提供关于为什么使用特定技术的洞察。

大型语言模型

对于本博客的目的，我们将假定大型语言模型是一个变换器解码器网络。解码器网络的目标是预测部分完成的输入字符串中的下一个词。更准确地说，这个输入字符串被划分为令牌（tokens），每一个令牌都代表一个词或部分词。每个令牌被映射到一个相应的固定长度的嵌入（embedding）。代表这个句子的一系列嵌入被送入解码器模型中，该模型预测序列中可能下一个令牌的概率分布（图 1）。下一个令牌可以通过从这个分布中随机抽样来选择，然后将扩展的序列反馈到模型中。通过这种方式，字符串逐渐得到扩展。这个过程被称为解码。请参见我们之前的博客了解其他解码方法。

解码器网络由一系列变换器层组成（图 2）。每一层（图 3）都通过自注意力机制（self-attention mechanism）混合来自令牌嵌入（token embeddings）的信息，并通过并行的全连接网络独立地处理这些嵌入。当嵌入通过网络传递时，它们逐渐融入了更多关于整个序列含义的信息。部分序列中最后一个令牌的输出嵌入通过线性变换和softmax函数映射到后续令牌可能值的概率分布上。有关变换器层和自注意力的更多信息可以在我们之前的一系列博客中找到。

Large language models: 大型语言模型 * Pretraining: 预训练

Masked self-attention: 掩码自注意力 * Is this model useful?: 这个模型有用吗？ * Supervised fine-tuning: 监督微调 * Reinforcement learning from human feedback: 从人类反馈中进行强化学习

Reward model: 奖励模型 * Multiple comparisons: 多重比较 * Using the reward model: 使用奖励模型 * Practical matters: 实用问题 * Direct Preference Optimization: 直接偏好优化 * Summary: 总结

成为VIP会员查看完整内容

96

相关内容

大型语言模型

大型语言模型

因果性与大型语言模型：一个新的前沿，51页ppt

因果性与大型语言模型：一个新的前沿，51页ppt

专知会员服务

79+阅读 · 2023年9月17日

【PODS2023】从查询语言的视角看图学习，111页ppt

【PODS2023】从查询语言的视角看图学习，111页ppt

专知会员服务

26+阅读 · 2023年7月22日

大型语言模型的挑战与应用，72页pdf

大型语言模型的挑战与应用，72页pdf

专知会员服务

91+阅读 · 2023年7月21日

【伯克利博士论文】构建鲁棒且可扩展的大型语言模型，102页pdf

【伯克利博士论文】构建鲁棒且可扩展的大型语言模型，102页pdf

专知会员服务

45+阅读 · 2023年5月16日

【干货书】计算优化:实践中的成功，415页pdf

【干货书】计算优化:实践中的成功，415页pdf

专知会员服务

70+阅读 · 2022年12月29日

【干货书】优化算法，232页pdf

【干货书】优化算法，232页pdf

专知会员服务

202+阅读 · 2022年9月8日

【硬核书】基础架构作为代码、模式和实践:附带Python和terrform中的示例，402页pdf

【硬核书】基础架构作为代码、模式和实践:附带Python和terrform中的示例，402页pdf

专知会员服务

34+阅读 · 2022年8月24日

【干货书】R语言探索性数据分析，218页pdf

【干货书】R语言探索性数据分析，218页pdf

专知会员服务

62+阅读 · 2021年9月14日

【干货书】Python实现机器学习算法的一步一步指南，103页pdf

【干货书】Python实现机器学习算法的一步一步指南，103页pdf

专知会员服务

173+阅读 · 2021年3月19日

【InterSpeech2020】最新《高效与灵活的机器学习实现》教程，177页ppt

【InterSpeech2020】最新《高效与灵活的机器学习实现》教程，177页ppt

专知会员服务

27+阅读 · 2020年11月10日

最新《强化学习导论》教程，32页pdf

最新《强化学习导论》教程，32页pdf

专知

4+阅读 · 2023年4月5日

【简明书】强化学习的基础，111页pdf

【简明书】强化学习的基础，111页pdf

专知

1+阅读 · 2022年11月16日

MIT视频教程 | 图神经网络理论:表示与学习，附48页ppt

MIT视频教程 | 图神经网络理论:表示与学习，附48页ppt

图与推荐

4+阅读 · 2022年11月8日

【经典书】计算机视觉中的结构化学习与预测，178页pdf

【经典书】计算机视觉中的结构化学习与预测，178页pdf

专知

3+阅读 · 2022年11月7日

【VLDB2022教程】查询图结构关系的现代技术:基础、系统实现和开放挑战，320页ppt

【VLDB2022教程】查询图结构关系的现代技术:基础、系统实现和开放挑战，320页ppt

专知

0+阅读 · 2022年11月3日

【干货书】优化算法，232页pdf

【干货书】优化算法，232页pdf

专知

26+阅读 · 2022年9月8日

【干货书】Pytorch创建和部署深度学习应用，294页pdf

【干货书】Pytorch创建和部署深度学习应用，294页pdf

专知

41+阅读 · 2022年3月18日

深度学习自然语言处理概述，116页ppt，Jiří Materna

深度学习自然语言处理概述，116页ppt，Jiří Materna

专知

37+阅读 · 2020年3月10日

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

AINLP

11+阅读 · 2019年8月11日

深度学习超参数搜索实用指南

深度学习超参数搜索实用指南

云栖社区

28+阅读 · 2018年10月14日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

33+阅读 · 2015年12月31日

组合测试用例优先排序算法及选择策略研究

国家自然科学基金

8+阅读 · 2015年12月31日

反问题的数学建模、计算及应用

国家自然科学基金

2+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

41+阅读 · 2023年4月19日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

146+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

172+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

VIP会员

相关主题

大型语言模型

相关VIP内容

因果性与大型语言模型：一个新的前沿，51页ppt

因果性与大型语言模型：一个新的前沿，51页ppt

专知会员服务

79+阅读 · 2023年9月17日

【PODS2023】从查询语言的视角看图学习，111页ppt

【PODS2023】从查询语言的视角看图学习，111页ppt

专知会员服务

26+阅读 · 2023年7月22日

大型语言模型的挑战与应用，72页pdf

大型语言模型的挑战与应用，72页pdf

专知会员服务

91+阅读 · 2023年7月21日

【伯克利博士论文】构建鲁棒且可扩展的大型语言模型，102页pdf

【伯克利博士论文】构建鲁棒且可扩展的大型语言模型，102页pdf

专知会员服务

45+阅读 · 2023年5月16日

【干货书】计算优化:实践中的成功，415页pdf

【干货书】计算优化:实践中的成功，415页pdf

专知会员服务

70+阅读 · 2022年12月29日

【干货书】优化算法，232页pdf

【干货书】优化算法，232页pdf

专知会员服务

202+阅读 · 2022年9月8日

【硬核书】基础架构作为代码、模式和实践:附带Python和terrform中的示例，402页pdf

【硬核书】基础架构作为代码、模式和实践:附带Python和terrform中的示例，402页pdf

专知会员服务

34+阅读 · 2022年8月24日

【干货书】R语言探索性数据分析，218页pdf

【干货书】R语言探索性数据分析，218页pdf

专知会员服务

62+阅读 · 2021年9月14日

【干货书】Python实现机器学习算法的一步一步指南，103页pdf

【干货书】Python实现机器学习算法的一步一步指南，103页pdf

专知会员服务

173+阅读 · 2021年3月19日

【InterSpeech2020】最新《高效与灵活的机器学习实现》教程，177页ppt

【InterSpeech2020】最新《高效与灵活的机器学习实现》教程，177页ppt

专知会员服务

27+阅读 · 2020年11月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《物联网（IoT）中的无人机通信高效控制》135页

《在GNSS信号降级环境中利用共识实现无人机集群稳健协调》

中程单向攻击无人机的战略意义：俄乌战争启示

《面向无人机集群的避障动态传感器覆盖算法》最新38页

相关资讯

最新《强化学习导论》教程，32页pdf

最新《强化学习导论》教程，32页pdf

专知

4+阅读 · 2023年4月5日

【简明书】强化学习的基础，111页pdf

【简明书】强化学习的基础，111页pdf

专知

1+阅读 · 2022年11月16日

MIT视频教程 | 图神经网络理论:表示与学习，附48页ppt

MIT视频教程 | 图神经网络理论:表示与学习，附48页ppt

图与推荐

4+阅读 · 2022年11月8日

【经典书】计算机视觉中的结构化学习与预测，178页pdf

【经典书】计算机视觉中的结构化学习与预测，178页pdf

专知

3+阅读 · 2022年11月7日

【VLDB2022教程】查询图结构关系的现代技术:基础、系统实现和开放挑战，320页ppt

【VLDB2022教程】查询图结构关系的现代技术:基础、系统实现和开放挑战，320页ppt

专知

0+阅读 · 2022年11月3日

【干货书】优化算法，232页pdf

【干货书】优化算法，232页pdf

专知

26+阅读 · 2022年9月8日

【干货书】Pytorch创建和部署深度学习应用，294页pdf

【干货书】Pytorch创建和部署深度学习应用，294页pdf

专知

41+阅读 · 2022年3月18日

深度学习自然语言处理概述，116页ppt，Jiří Materna

深度学习自然语言处理概述，116页ppt，Jiří Materna

专知

37+阅读 · 2020年3月10日

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

AINLP

11+阅读 · 2019年8月11日

深度学习超参数搜索实用指南

深度学习超参数搜索实用指南

云栖社区

28+阅读 · 2018年10月14日

相关基金

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

33+阅读 · 2015年12月31日

组合测试用例优先排序算法及选择策略研究

国家自然科学基金

8+阅读 · 2015年12月31日

反问题的数学建模、计算及应用

国家自然科学基金

2+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

41+阅读 · 2023年4月19日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

146+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

172+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

微信扫码咨询专知VIP会员