这篇博客解释了如何训练和微调大型语言模型(LLMs)以创建像Chat-GPT这样的系统。我们将讨论模型的预训练、少样本学习、有监督微调、基于人类反馈的强化学习(RLHF)以及直接偏好优化。我们之前的博客以高层次地介绍了这些观点。在本文中,我们力图让这些概念在数学上更为精确,并提供关于为什么使用特定技术的洞察。

大型语言模型

对于本博客的目的,我们将假定大型语言模型是一个变换器解码器网络。解码器网络的目标是预测部分完成的输入字符串中的下一个词。更准确地说,这个输入字符串被划分为令牌(tokens),每一个令牌都代表一个词或部分词。每个令牌被映射到一个相应的固定长度的嵌入(embedding)。代表这个句子的一系列嵌入被送入解码器模型中,该模型预测序列中可能下一个令牌的概率分布(图 1)。下一个令牌可以通过从这个分布中随机抽样来选择,然后将扩展的序列反馈到模型中。通过这种方式,字符串逐渐得到扩展。这个过程被称为解码。请参见我们之前的博客了解其他解码方法。

解码器网络由一系列变换器层组成(图 2)。每一层(图 3)都通过自注意力机制(self-attention mechanism)混合来自令牌嵌入(token embeddings)的信息,并通过并行的全连接网络独立地处理这些嵌入。当嵌入通过网络传递时,它们逐渐融入了更多关于整个序列含义的信息。部分序列中最后一个令牌的输出嵌入通过线性变换和softmax函数映射到后续令牌可能值的概率分布上。有关变换器层和自注意力的更多信息可以在我们之前的一系列博客中找到。

Large language models: 大型语言模型 * Pretraining: 预训练

Masked self-attention: 掩码自注意力 * Is this model useful?: 这个模型有用吗? * Supervised fine-tuning: 监督微调 * Reinforcement learning from human feedback: 从人类反馈中进行强化学习

Reward model: 奖励模型 * Multiple comparisons: 多重比较 * Using the reward model: 使用奖励模型 * Practical matters: 实用问题 * Direct Preference Optimization: 直接偏好优化 * Summary: 总结

成为VIP会员查看完整内容
95

相关内容

因果性与大型语言模型:一个新的前沿,51页ppt
专知会员服务
78+阅读 · 2023年9月17日
【PODS2023】从查询语言的视角看图学习,111页ppt
专知会员服务
25+阅读 · 2023年7月22日
大型语言模型的挑战与应用,72页pdf
专知会员服务
90+阅读 · 2023年7月21日
【干货书】计算优化:实践中的成功,415页pdf
专知会员服务
68+阅读 · 2022年12月29日
【干货书】优化算法,232页pdf
专知会员服务
198+阅读 · 2022年9月8日
【干货书】R语言探索性数据分析,218页pdf
专知会员服务
61+阅读 · 2021年9月14日
最新《强化学习导论》教程,32页pdf
专知
3+阅读 · 2023年4月5日
【简明书】强化学习的基础,111页pdf
专知
1+阅读 · 2022年11月16日
【干货书】优化算法,232页pdf
专知
25+阅读 · 2022年9月8日
深度学习超参数搜索实用指南
云栖社区
28+阅读 · 2018年10月14日
国家自然科学基金
25+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
148+阅读 · 2023年3月24日
VIP会员
相关VIP内容
因果性与大型语言模型:一个新的前沿,51页ppt
专知会员服务
78+阅读 · 2023年9月17日
【PODS2023】从查询语言的视角看图学习,111页ppt
专知会员服务
25+阅读 · 2023年7月22日
大型语言模型的挑战与应用,72页pdf
专知会员服务
90+阅读 · 2023年7月21日
【干货书】计算优化:实践中的成功,415页pdf
专知会员服务
68+阅读 · 2022年12月29日
【干货书】优化算法,232页pdf
专知会员服务
198+阅读 · 2022年9月8日
【干货书】R语言探索性数据分析,218页pdf
专知会员服务
61+阅读 · 2021年9月14日
相关基金
国家自然科学基金
25+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员