强大的基础模型,包括具有Transformer架构的大型语言模型(LLMs),在各个行业引领了生成式人工智能的新纪元。基础模型的出现催生了大量新应用,这些应用涵盖了问答系统、客户服务、图像和视频生成以及代码补全等多个领域。然而,当模型参数数量达到数千亿时,在现实场景中的部署会带来高昂的推理成本和高延迟。因此,业界对使用AI加速器进行成本效益高且快速推理的需求越来越高。为此,我们的教程提供了关于使用AI加速器进行推理优化的全面讨论。

首先,我们概述了基本的Transformer架构和深度学习系统框架,然后深入探讨了用于快速和内存高效的注意力计算的系统优化技术,并讨论了这些技术如何高效地在AI加速器上实现。接下来,我们描述了快速Transformer推理的关键架构元素。最后,我们在同一背景下检视了各种模型压缩和快速解码策略。

成为VIP会员查看完整内容
22

相关内容

《LLM 时代小模型的作用》综述
专知会员服务
42+阅读 · 9月12日
基于Transformer模型的数据模态转换综述
专知会员服务
33+阅读 · 8月17日
Transformer推理的全栈优化综述
专知会员服务
82+阅读 · 2023年3月4日
【AAAI2023】类增量学习的在线超参数优化
专知会员服务
19+阅读 · 2023年1月18日
【AAAI2023】基于Dirichlet元模型的事后不确定性学习
专知会员服务
15+阅读 · 2022年12月16日
【AAAI2023】自适应黎曼空间中的自监督连续图学习
专知会员服务
26+阅读 · 2022年12月2日
【NeurIPS 2022】扩散模型的深度平衡方法
专知会员服务
39+阅读 · 2022年11月5日
专知会员服务
22+阅读 · 2020年9月8日
数据受限条件下的多模态处理技术综述
专知
16+阅读 · 2022年7月16日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【KDD2020】动态知识图谱的多事件预测
专知
88+阅读 · 2020年8月31日
【CVPR 2020 Oral】小样本类增量学习
专知
16+阅读 · 2020年6月26日
使用 Keras Tuner 调节超参数
TensorFlow
15+阅读 · 2020年2月6日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
155+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
397+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
Arxiv
137+阅读 · 2023年3月24日
Arxiv
19+阅读 · 2023年3月17日
VIP会员
相关VIP内容
《LLM 时代小模型的作用》综述
专知会员服务
42+阅读 · 9月12日
基于Transformer模型的数据模态转换综述
专知会员服务
33+阅读 · 8月17日
Transformer推理的全栈优化综述
专知会员服务
82+阅读 · 2023年3月4日
【AAAI2023】类增量学习的在线超参数优化
专知会员服务
19+阅读 · 2023年1月18日
【AAAI2023】基于Dirichlet元模型的事后不确定性学习
专知会员服务
15+阅读 · 2022年12月16日
【AAAI2023】自适应黎曼空间中的自监督连续图学习
专知会员服务
26+阅读 · 2022年12月2日
【NeurIPS 2022】扩散模型的深度平衡方法
专知会员服务
39+阅读 · 2022年11月5日
专知会员服务
22+阅读 · 2020年9月8日
相关资讯
数据受限条件下的多模态处理技术综述
专知
16+阅读 · 2022年7月16日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【KDD2020】动态知识图谱的多事件预测
专知
88+阅读 · 2020年8月31日
【CVPR 2020 Oral】小样本类增量学习
专知
16+阅读 · 2020年6月26日
使用 Keras Tuner 调节超参数
TensorFlow
15+阅读 · 2020年2月6日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员