强大的基础模型,包括具有Transformer架构的大型语言模型(LLMs),在各个行业引领了生成式人工智能的新纪元。基础模型的出现催生了大量新应用,这些应用涵盖了问答系统、客户服务、图像和视频生成以及代码补全等多个领域。然而,当模型参数数量达到数千亿时,在现实场景中的部署会带来高昂的推理成本和高延迟。因此,业界对使用AI加速器进行成本效益高且快速推理的需求越来越高。为此,我们的教程提供了关于使用AI加速器进行推理优化的全面讨论。

首先,我们概述了基本的Transformer架构和深度学习系统框架,然后深入探讨了用于快速和内存高效的注意力计算的系统优化技术,并讨论了这些技术如何高效地在AI加速器上实现。接下来,我们描述了快速Transformer推理的关键架构元素。最后,我们在同一背景下检视了各种模型压缩和快速解码策略。

成为VIP会员查看完整内容
23

相关内容

GPT系列大模型在自然语言处理任务中的鲁棒性研究
专知会员服务
30+阅读 · 2024年3月22日
Transformer推理的全栈优化综述
专知会员服务
83+阅读 · 2023年3月4日
【AAAI2023】类增量学习的在线超参数优化
专知会员服务
20+阅读 · 2023年1月18日
【NeurIPS 2022】扩散模型的深度平衡方法
专知会员服务
40+阅读 · 2022年11月5日
数据受限条件下的多模态处理技术综述
专知
21+阅读 · 2022年7月16日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【KDD2020】动态知识图谱的多事件预测
专知
88+阅读 · 2020年8月31日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
174+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
494+阅读 · 2023年3月31日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关VIP内容
GPT系列大模型在自然语言处理任务中的鲁棒性研究
专知会员服务
30+阅读 · 2024年3月22日
Transformer推理的全栈优化综述
专知会员服务
83+阅读 · 2023年3月4日
【AAAI2023】类增量学习的在线超参数优化
专知会员服务
20+阅读 · 2023年1月18日
【NeurIPS 2022】扩散模型的深度平衡方法
专知会员服务
40+阅读 · 2022年11月5日
相关资讯
数据受限条件下的多模态处理技术综述
专知
21+阅读 · 2022年7月16日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【KDD2020】动态知识图谱的多事件预测
专知
88+阅读 · 2020年8月31日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
相关基金
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
相关论文
微信扫码咨询专知VIP会员