AI大语言模型的原理、演进及算力测算  

机器学习中模型及数据规模增加有利于提高深度神经网络性能。  

人工智能致力于研究能够模拟、延伸和扩展人类智能的理论方法及技术,并开发相关应用系统;其最终目标是使计算机能够模拟人的思维方式和行为。机器学习是一门专门研究计算机如何模拟或实现人类的学习行为、以获取新的知识或技能、重新组织已有的知识结构使之不断改善自身性能的学科,广泛应用于数据挖掘、计算机视觉、自然语言处理等领域。深度学习是机器学习的子集,主要由人工神经网络组成。与传统算法及中小型神经网络相比,大规模的神经网络及海量的数据支撑将有效提高深度神经网络的表现性能。  Transformer模型架构是现代大语言模型所采用的基础架构。 

Transformer模型是一种非串行的神经网络架构,最初被用于执行基于上下文的机器翻译任务。Transformer模型以Encoder-Decoder架构为基础,能够并行处理整个文本序列,同时引入“注意机制”(Attention),使其能够在文本序列中正向和反向地跟踪单词之间的关系,适合在大规模分布式集群中进行训练,因此具有能够并行运算、关注上下文信息、表达能力强等优势。Transformer模型以词嵌入向量叠加位置编码作为输入,使得输入序列具有位置上的关联信息。编码器(Encoder)由Self-Attention(自注意力层)和FeedForwardNetwork(前馈网络)两个子层组成,Attention使得模型不仅关注当前位置的词语,同时能够关注上下文的词语。解码器(Decoder)通过Encoder-DecoderAttention层,用于解码时对于输入端编码信息的关注;利用掩码(Mask)机制,对序列中每一位置根据之前位置的输出结果循环解码得到当前位置的输出结果。  

AI大语言模型的原理、演进及算力测算  

GPT是基于Transformer架构的大语言模型,近年迭代演进迅速。  构建语言模型是自然语言处理中最基本和最重要的任务之一。GPT是基于Transformer架构衍生出的生成式预训练的单向语言模型,通过对大量语料数据进行无监督学习,从而实现文本生成的目的;在结构上仅采用Transformer架构的Decoder部分。自2018年6月OpenAI发布GPT-1模型以来,GPT模型迭代演进迅速。GPT-1核心思想是采用“预训练+微调”的半监督学习方法,服务于单序列文本的生成式任务;GPT-2在预训练阶段引入多任务学习机制,将多样化的自然语言处理任务全部转化为语言模型问题;GPT-3大幅增加了模型参数,更能有效利用上下文信息,性能得到跨越式提高;GPT-3.5引入人类反馈强化学习机制,通过使用人类反馈的数据集进行监督学习,能够使得模型输出与人类意图一致。  

大语言模型的训练及推理应用对算力需求带来急剧提升。 

以GPT-3为例,GPT-3参数量达1750亿个,训练样本token数达3000亿个。考虑采用精度为32位的单精度浮点数数据来训练模型及进行谷歌级访问量推理,假设GPT-3模型每次训练时间要求在30天完成,对应GPT-3所需运算次数为3.1510^23FLOPs,所需算力为121.528PFLOPS,以A100PCle芯片为例,训练阶段需要新增A100GPU芯片1558颗,价值量约2337万美元;对应DGXA100服务器195台,价值量约3880.5万美元。假设推理阶段按谷歌每日搜索量35亿次进行估计,则每日GPT-3需推理token数达7.9万亿个,所需运算次数为4.7610^24FLOPs,所需算力为55EFLOPs,则推理阶段需要新增A100GPU芯片70.6万颗,价值量约105.95亿美元;对应DGXA100服务器8.8万台,价值量约175.12亿美元。

成为VIP会员查看完整内容
142

相关内容

ChatGPT(全名:Chat Generative Pre-trained Transformer),美国OpenAI 研发的聊天机器人程序 [1] ,于2022年11月30日发布 。ChatGPT是人工智能技术驱动的自然语言处理工具,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文任务。 [1] https://openai.com/blog/chatgpt/
面向AI大模型的智算中心网络演进白皮书,30页pdf
专知会员服务
78+阅读 · 2023年5月15日
【ChatGPT系列报告】算力、数据与模型综合分析,46页Slides
【ChatGPT系列报告】ChatGPT不断突破,AI驶入快车道
专知会员服务
134+阅读 · 2023年2月23日
【ChatGPT系列报告】AIGC & ChatGPT 发展报告,27页ppt
专知会员服务
354+阅读 · 2023年2月18日
【ChatGPT系列报告】ChatGPT研究框架,64页pdf
专知会员服务
382+阅读 · 2023年2月15日
AIGC的技术发展和应用:ChatGPT,20页pdf
专知会员服务
172+阅读 · 2023年2月13日
毫末智行,首推自动驾驶「ChatGPT」
机器之心
4+阅读 · 2023年4月12日
英伟达Faster Transformer:作者带你揭秘BERT优化
机器之心
14+阅读 · 2019年9月18日
进一步改进GPT和BERT:使用Transformer的语言模型
机器之心
16+阅读 · 2019年5月1日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
3分钟看懂史上最强NLP模型BERT
新智元
23+阅读 · 2019年2月27日
BERT大火却不懂Transformer?读这一篇就够了
大数据文摘
11+阅读 · 2019年1月8日
详细解读谷歌新模型 BERT 为什么嗨翻 AI 圈
人工智能头条
10+阅读 · 2018年10月25日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2023年6月9日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
dynnode2vec: Scalable Dynamic Network Embedding
Arxiv
14+阅读 · 2018年12月6日
VIP会员
相关VIP内容
面向AI大模型的智算中心网络演进白皮书,30页pdf
专知会员服务
78+阅读 · 2023年5月15日
【ChatGPT系列报告】算力、数据与模型综合分析,46页Slides
【ChatGPT系列报告】ChatGPT不断突破,AI驶入快车道
专知会员服务
134+阅读 · 2023年2月23日
【ChatGPT系列报告】AIGC & ChatGPT 发展报告,27页ppt
专知会员服务
354+阅读 · 2023年2月18日
【ChatGPT系列报告】ChatGPT研究框架,64页pdf
专知会员服务
382+阅读 · 2023年2月15日
AIGC的技术发展和应用:ChatGPT,20页pdf
专知会员服务
172+阅读 · 2023年2月13日
相关资讯
毫末智行,首推自动驾驶「ChatGPT」
机器之心
4+阅读 · 2023年4月12日
英伟达Faster Transformer:作者带你揭秘BERT优化
机器之心
14+阅读 · 2019年9月18日
进一步改进GPT和BERT:使用Transformer的语言模型
机器之心
16+阅读 · 2019年5月1日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
3分钟看懂史上最强NLP模型BERT
新智元
23+阅读 · 2019年2月27日
BERT大火却不懂Transformer?读这一篇就够了
大数据文摘
11+阅读 · 2019年1月8日
详细解读谷歌新模型 BERT 为什么嗨翻 AI 圈
人工智能头条
10+阅读 · 2018年10月25日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员