作者:spring 1.比较 LLaMA、ChatGLM、Falcon 等大语言模型的细节:tokenizer、位置编码、Layer Normalization、激活函数等。2. 大语言模型的分布式训练技术:数据并行、张量模型并行、流水线并行、3D 并行、零冗余优化器 ZeRO、CPU 卸载技术 ZeRo-offload、混合精度训练、激活重计算技术、Flash Attention、Paged Attention。3. 大语言模型的参数高效微调技术:prompt tuning、prefix tuning、adapter、LLaMA-adapter、 LoRA。

0. 大纲

1. 大语言模型的细节

1.0 transformer 与 LLM

1.1 模型结构

1.2 训练目标

1.3 tokenizer

1.4 位置编码

1.5 层归一化

1.6 激活函数

1.7 Multi-query Attention 与 Grouped-query Attention

1.8 并行 transformer block

1.9 总结-训练稳定性

2. LLM 的分布式预训练

2.0 点对点通信与集体通信

2.1 数据并行

2.2 张量并行

2.3 流水线并行

**2.4 3D 并行

**2.5 混合精度训练

2.6 激活重计算

2.7 ZeRO,零冗余优化器

2.8 CPU-offload,ZeRO-offload

2.9 Flash Attention

2.10 vLLM: Paged Attention

3. LLM 的参数高效微调

3.0 为什么进行参数高效微调?

3.1 prompt tuning

3.2 prefix tuning

3.3 adapter

3.4 LLaMA adapter

3.5 LoRA

3.6 实验比较

4. 参考文献

  1. 分析 transformer 模型的参数量、计算量、中间激活、KV cache
  2. 【万字长文】LLaMA, ChatGLM, BLOOM 的高效参数微调实践
  3. FlashAttention:加速计算,节省显存, IO 感知的精确注意力
成为VIP会员查看完整内容
161

相关内容

字节跳动李航:对语言大模型的若干观察和思考
专知会员服务
62+阅读 · 2023年10月18日
可解释的机器学习模型和架构
专知会员服务
89+阅读 · 2023年9月17日
大语言模型的前世、今生与未来
专知会员服务
109+阅读 · 2023年9月8日
大模型的涌现能力介绍
专知会员服务
171+阅读 · 2023年5月16日
基于模型的强化学习综述
专知会员服务
143+阅读 · 2022年7月13日
专知会员服务
120+阅读 · 2020年12月9日
生成扩散模型漫谈:统一扩散模型(应用篇)
PaperWeekly
0+阅读 · 2022年11月19日
基于模型的强化学习综述
专知
33+阅读 · 2022年7月13日
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
R语言之数据分析高级方法「时间序列」
R语言中文社区
17+阅读 · 2018年4月24日
直白介绍卷积神经网络(CNN)
Python开发者
25+阅读 · 2018年4月8日
推荐|TensorFlow/PyTorch/Sklearn实现的五十种机器学习模型
全球人工智能
24+阅读 · 2017年7月14日
深度学习实战(二)——基于Keras 的深度学习
乐享数据DataScientists
15+阅读 · 2017年7月13日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
159+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
410+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
VIP会员
相关VIP内容
字节跳动李航:对语言大模型的若干观察和思考
专知会员服务
62+阅读 · 2023年10月18日
可解释的机器学习模型和架构
专知会员服务
89+阅读 · 2023年9月17日
大语言模型的前世、今生与未来
专知会员服务
109+阅读 · 2023年9月8日
大模型的涌现能力介绍
专知会员服务
171+阅读 · 2023年5月16日
基于模型的强化学习综述
专知会员服务
143+阅读 · 2022年7月13日
专知会员服务
120+阅读 · 2020年12月9日
相关资讯
生成扩散模型漫谈:统一扩散模型(应用篇)
PaperWeekly
0+阅读 · 2022年11月19日
基于模型的强化学习综述
专知
33+阅读 · 2022年7月13日
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
R语言之数据分析高级方法「时间序列」
R语言中文社区
17+阅读 · 2018年4月24日
直白介绍卷积神经网络(CNN)
Python开发者
25+阅读 · 2018年4月8日
推荐|TensorFlow/PyTorch/Sklearn实现的五十种机器学习模型
全球人工智能
24+阅读 · 2017年7月14日
深度学习实战(二)——基于Keras 的深度学习
乐享数据DataScientists
15+阅读 · 2017年7月13日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员