强大的基础模型,包括具有Transformer架构的大型语言模型(LLMs),在各个行业引领了生成式人工智能的新纪元。基础模型的出现催生了大量新应用,这些应用涵盖了问答系统、客户服务、图像和视频生成以及代码补全等多个领域。然而,当模型参数数量达到数千亿时,在现实场景中的部署会带来高昂的推理成本和高延迟。因此,业界对使用AI加速器进行成本效益高且快速推理的需求越来越高。为此,我们的教程提供了关于使用AI加速器进行推理优化的全面讨论。

首先,我们概述了基本的Transformer架构和深度学习系统框架,然后深入探讨了用于快速和内存高效的注意力计算的系统优化技术,并讨论了这些技术如何高效地在AI加速器上实现。接下来,我们描述了快速Transformer推理的关键架构元素。最后,我们在同一背景下检视了各种模型压缩和快速解码策略。

成为VIP会员查看完整内容
23

相关内容

《LLM 时代小模型的作用》综述
专知会员服务
44+阅读 · 2024年9月12日
基于Transformer模型的数据模态转换综述
专知会员服务
35+阅读 · 2024年8月17日
GPT系列大模型在自然语言处理任务中的鲁棒性研究
专知会员服务
29+阅读 · 2024年3月22日
Transformer推理的全栈优化综述
专知会员服务
82+阅读 · 2023年3月4日
【AAAI2023】类增量学习的在线超参数优化
专知会员服务
20+阅读 · 2023年1月18日
【AAAI2023】基于Dirichlet元模型的事后不确定性学习
专知会员服务
16+阅读 · 2022年12月16日
【AAAI2023】自适应黎曼空间中的自监督连续图学习
专知会员服务
27+阅读 · 2022年12月2日
【NeurIPS 2022】扩散模型的深度平衡方法
专知会员服务
40+阅读 · 2022年11月5日
专知会员服务
23+阅读 · 2020年9月8日
数据受限条件下的多模态处理技术综述
专知
17+阅读 · 2022年7月16日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【KDD2020】动态知识图谱的多事件预测
专知
88+阅读 · 2020年8月31日
【CVPR 2020 Oral】小样本类增量学习
专知
17+阅读 · 2020年6月26日
使用 Keras Tuner 调节超参数
TensorFlow
15+阅读 · 2020年2月6日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
163+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
424+阅读 · 2023年3月31日
Arxiv
69+阅读 · 2023年3月26日
Arxiv
153+阅读 · 2023年3月24日
Arxiv
22+阅读 · 2023年3月17日
VIP会员
相关VIP内容
《LLM 时代小模型的作用》综述
专知会员服务
44+阅读 · 2024年9月12日
基于Transformer模型的数据模态转换综述
专知会员服务
35+阅读 · 2024年8月17日
GPT系列大模型在自然语言处理任务中的鲁棒性研究
专知会员服务
29+阅读 · 2024年3月22日
Transformer推理的全栈优化综述
专知会员服务
82+阅读 · 2023年3月4日
【AAAI2023】类增量学习的在线超参数优化
专知会员服务
20+阅读 · 2023年1月18日
【AAAI2023】基于Dirichlet元模型的事后不确定性学习
专知会员服务
16+阅读 · 2022年12月16日
【AAAI2023】自适应黎曼空间中的自监督连续图学习
专知会员服务
27+阅读 · 2022年12月2日
【NeurIPS 2022】扩散模型的深度平衡方法
专知会员服务
40+阅读 · 2022年11月5日
专知会员服务
23+阅读 · 2020年9月8日
相关资讯
数据受限条件下的多模态处理技术综述
专知
17+阅读 · 2022年7月16日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【KDD2020】动态知识图谱的多事件预测
专知
88+阅读 · 2020年8月31日
【CVPR 2020 Oral】小样本类增量学习
专知
17+阅读 · 2020年6月26日
使用 Keras Tuner 调节超参数
TensorFlow
15+阅读 · 2020年2月6日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员