主流大语言模型的技术原理细节 - 专知VIP

会员服务 ·

12

大型语言模型 · 大模型 · 并行计算 ·

2023 年 9 月 16 日

主流大语言模型的技术原理细节

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

作者：spring 1.比较 LLaMA、ChatGLM、Falcon 等大语言模型的细节：tokenizer、位置编码、Layer Normalization、激活函数等。2. 大语言模型的分布式训练技术：数据并行、张量模型并行、流水线并行、3D 并行、零冗余优化器 ZeRO、CPU 卸载技术 ZeRo-offload、混合精度训练、激活重计算技术、Flash Attention、Paged Attention。3. 大语言模型的参数高效微调技术：prompt tuning、prefix tuning、adapter、LLaMA-adapter、 LoRA。

0. 大纲

1. 大语言模型的细节

1.0 transformer 与 LLM

1.1 模型结构

1.2 训练目标

1.3 tokenizer

1.4 位置编码

1.5 层归一化

1.6 激活函数

1.7 Multi-query Attention 与 Grouped-query Attention

1.8 并行 transformer block

1.9 总结-训练稳定性

2. LLM 的分布式预训练

2.0 点对点通信与集体通信

2.1 数据并行

2.2 张量并行

2.3 流水线并行

**2.4 3D 并行

**2.5 混合精度训练

2.6 激活重计算

2.7 ZeRO，零冗余优化器

2.8 CPU-offload，ZeRO-offload

2.9 Flash Attention

2.10 vLLM: Paged Attention

3. LLM 的参数高效微调

3.0 为什么进行参数高效微调？

3.1 prompt tuning

3.2 prefix tuning

3.3 adapter

3.4 LLaMA adapter

3.5 LoRA

3.6 实验比较

4. 参考文献

成为VIP会员查看完整内容

相关内容

大型语言模型

大型语言模型

字节跳动李航：对语言大模型的若干观察和思考

字节跳动李航：对语言大模型的若干观察和思考

专知会员服务

63+阅读 · 2023年10月18日

大模型如何实时更新？悉尼科大等最新《大型语言模型如何捕捉不断变化的世界知识?》最新进展综述

大模型如何实时更新？悉尼科大等最新《大型语言模型如何捕捉不断变化的世界知识?》最新进展综述

专知会员服务

58+阅读 · 2023年10月13日

如何构建多模态大模型？微软最新119页《多模态基础模型：从专家到通用助手》论文

如何构建多模态大模型？微软最新119页《多模态基础模型：从专家到通用助手》论文

专知会员服务

161+阅读 · 2023年9月21日

可解释的机器学习模型和架构

可解释的机器学习模型和架构

专知会员服务

92+阅读 · 2023年9月17日

大语言模型的前世、今生与未来

大语言模型的前世、今生与未来

专知会员服务

110+阅读 · 2023年9月8日

大模型的涌现能力介绍

大模型的涌现能力介绍

专知会员服务

173+阅读 · 2023年5月16日

大模型ChatGPT如何用于知识图谱构建？《利用大型语言模型增强知识图谱构建》论文

大模型ChatGPT如何用于知识图谱构建？《利用大型语言模型增强知识图谱构建》论文

专知会员服务

216+阅读 · 2023年5月9日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

148+阅读 · 2022年7月13日

自然语言处理预训练模型的研究综述

专知会员服务

123+阅读 · 2020年12月9日

【论文推荐】Stochastic Graph Neural Networks，随机图神经网络

【论文推荐】Stochastic Graph Neural Networks，随机图神经网络

专知会员服务

69+阅读 · 2020年6月6日

生成扩散模型漫谈：统一扩散模型（应用篇）

生成扩散模型漫谈：统一扩散模型（应用篇）

PaperWeekly

0+阅读 · 2022年11月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

基于知识图谱的问答系统入门—NLPCC2016KBQA数据集

基于知识图谱的问答系统入门—NLPCC2016KBQA数据集

PaperWeekly

70+阅读 · 2019年1月8日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

中国人工智能学会

28+阅读 · 2018年6月16日

一文概览能生成代理标签的半监督学习算法

一文概览能生成代理标签的半监督学习算法

论智

12+阅读 · 2018年6月5日

R语言之数据分析高级方法「时间序列」

R语言之数据分析高级方法「时间序列」

R语言中文社区

17+阅读 · 2018年4月24日

直白介绍卷积神经网络（CNN）

直白介绍卷积神经网络（CNN）

Python开发者

25+阅读 · 2018年4月8日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

56+阅读 · 2017年11月6日

推荐｜TensorFlow/PyTorch/Sklearn实现的五十种机器学习模型

推荐｜TensorFlow/PyTorch/Sklearn实现的五十种机器学习模型

全球人工智能

24+阅读 · 2017年7月14日

深度学习实战（二）——基于Keras 的深度学习

深度学习实战（二）——基于Keras 的深度学习

乐享数据DataScientists

15+阅读 · 2017年7月13日

粗糙回归模型与算法研究

国家自然科学基金

8+阅读 · 2015年12月31日

非结构化管理决策大数据平台构建与关键技术

国家自然科学基金

11+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

2+阅读 · 2015年12月31日

复杂非完整多自主体网络协同算法设计与性能极限分析

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

不完备/冗余数据下复杂产品关联建模设计方法及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

复杂场景下目标跟踪的表观建模研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

稀疏优化问题的理论与方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

Large language models for aspect-based sentiment analysis

Arxiv

0+阅读 · 2023年10月27日

A weighted-variance variational autoencoder model for speech enhancement

Arxiv

0+阅读 · 2023年10月26日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

477+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

147+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

VIP会员

相关主题

大型语言模型

相关VIP内容

字节跳动李航：对语言大模型的若干观察和思考

字节跳动李航：对语言大模型的若干观察和思考

专知会员服务

63+阅读 · 2023年10月18日

大模型如何实时更新？悉尼科大等最新《大型语言模型如何捕捉不断变化的世界知识?》最新进展综述

大模型如何实时更新？悉尼科大等最新《大型语言模型如何捕捉不断变化的世界知识?》最新进展综述

专知会员服务

58+阅读 · 2023年10月13日

如何构建多模态大模型？微软最新119页《多模态基础模型：从专家到通用助手》论文

如何构建多模态大模型？微软最新119页《多模态基础模型：从专家到通用助手》论文

专知会员服务

161+阅读 · 2023年9月21日

可解释的机器学习模型和架构

可解释的机器学习模型和架构

专知会员服务

92+阅读 · 2023年9月17日

大语言模型的前世、今生与未来

大语言模型的前世、今生与未来

专知会员服务

110+阅读 · 2023年9月8日

大模型的涌现能力介绍

大模型的涌现能力介绍

专知会员服务

173+阅读 · 2023年5月16日

大模型ChatGPT如何用于知识图谱构建？《利用大型语言模型增强知识图谱构建》论文

大模型ChatGPT如何用于知识图谱构建？《利用大型语言模型增强知识图谱构建》论文

专知会员服务

216+阅读 · 2023年5月9日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

148+阅读 · 2022年7月13日

自然语言处理预训练模型的研究综述

专知会员服务

123+阅读 · 2020年12月9日

【论文推荐】Stochastic Graph Neural Networks，随机图神经网络

【论文推荐】Stochastic Graph Neural Networks，随机图神经网络

专知会员服务

69+阅读 · 2020年6月6日

热门VIP内容

开通专知VIP会员享更多权益服务

模型提取攻击与防御的系统综述：最新进展与展望

【博士论文】低维与高维空间中潜在表征的分析、建模与变换

【CMU博士论文】用于物理模拟的高效深度学习模型

大模型解决方案白皮书：社交陪伴场景全流程落地指南

相关资讯

生成扩散模型漫谈：统一扩散模型（应用篇）

生成扩散模型漫谈：统一扩散模型（应用篇）

PaperWeekly

0+阅读 · 2022年11月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

基于知识图谱的问答系统入门—NLPCC2016KBQA数据集

基于知识图谱的问答系统入门—NLPCC2016KBQA数据集

PaperWeekly

70+阅读 · 2019年1月8日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

中国人工智能学会

28+阅读 · 2018年6月16日

一文概览能生成代理标签的半监督学习算法

一文概览能生成代理标签的半监督学习算法

论智

12+阅读 · 2018年6月5日

R语言之数据分析高级方法「时间序列」

R语言之数据分析高级方法「时间序列」

R语言中文社区

17+阅读 · 2018年4月24日

直白介绍卷积神经网络（CNN）

直白介绍卷积神经网络（CNN）

Python开发者

25+阅读 · 2018年4月8日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

56+阅读 · 2017年11月6日

推荐｜TensorFlow/PyTorch/Sklearn实现的五十种机器学习模型

推荐｜TensorFlow/PyTorch/Sklearn实现的五十种机器学习模型

全球人工智能

24+阅读 · 2017年7月14日

深度学习实战（二）——基于Keras 的深度学习

深度学习实战（二）——基于Keras 的深度学习

乐享数据DataScientists

15+阅读 · 2017年7月13日

相关基金

粗糙回归模型与算法研究

国家自然科学基金

8+阅读 · 2015年12月31日

非结构化管理决策大数据平台构建与关键技术

国家自然科学基金

11+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

2+阅读 · 2015年12月31日

复杂非完整多自主体网络协同算法设计与性能极限分析

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

不完备/冗余数据下复杂产品关联建模设计方法及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

复杂场景下目标跟踪的表观建模研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

稀疏优化问题的理论与方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

相关论文

Large language models for aspect-based sentiment analysis

Arxiv

0+阅读 · 2023年10月27日

A weighted-variance variational autoencoder model for speech enhancement

Arxiv

0+阅读 · 2023年10月26日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

477+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

147+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

微信扫码咨询专知VIP会员