The ultra-large-scale pre-training model can effectively improve the effect of a variety of tasks, and it also brings a heavy computational burden to inference. This paper introduces a series of ultra-large-scale pre-training model optimization methods that combine algorithm characteristics and GPU processor hardware characteristics, and on this basis, propose an inference engine -- Easy and Efficient Transformer (EET), Which has a significant performance improvement over the existing schemes. We firstly introduce a pre-padding decoding mechanism that improves token parallelism for generation tasks. Then we design high optimized kernels to remove sequence masks and achieve cost-free calculation for padding tokens, as well as support long sequence and long embedding sizes. Thirdly a user-friendly inference system with an easy service pipeline was introduced which greatly reduces the difficulty of engineering deployment with high throughput. Compared to Faster Transformer's implementation for GPT-2 on A100, EET achieves a 1.5-15x state-of-art speedup varying with context length.EET is available https://github.com/NetEase-FuXi/EET.


翻译:超大型培训前模式可以有效地改善各种任务的效果,同时也带来沉重的计算负担。本文介绍一系列超大型培训前模式优化方法,结合算法特性和GPU处理器硬件特性,在此基础上提出推论引擎 -- -- 简单高效的变异器(EET),该变异器比现有计划有显著的性能改进。我们首先引入了编程前解码机制,改进了代办任务的象征性平行性。然后,我们设计了高优化的内核,以去除序列面罩,实现划线标牌的无成本计算,以及支持长序和长嵌入尺寸。第三,采用了方便用户的推导系统,该系统可大大降低高载率工程部署的难度。与A100GPT-2相比, EET实现了1.5-15x的快速速度,时间长度不同。 EET可提供https://github.com/Netase-FuXi/ETET。

0
下载
关闭预览

相关内容

【Google】梯度下降,48页ppt
专知会员服务
80+阅读 · 2020年12月5日
最新《Transformers模型》教程,64页ppt
专知会员服务
306+阅读 · 2020年11月26日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
专知会员服务
159+阅读 · 2020年1月16日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
计算机视觉最佳实践、代码示例和相关文档
专知会员服务
17+阅读 · 2019年10月9日
【Reformer】图解Reformer:一种高效的Transformer
深度学习自然语言处理
6+阅读 · 2020年3月9日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
2018机器学习开源资源盘点
专知
6+阅读 · 2019年2月2日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
6+阅读 · 2019年7月11日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
VIP会员
相关VIP内容
【Google】梯度下降,48页ppt
专知会员服务
80+阅读 · 2020年12月5日
最新《Transformers模型》教程,64页ppt
专知会员服务
306+阅读 · 2020年11月26日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
专知会员服务
159+阅读 · 2020年1月16日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
计算机视觉最佳实践、代码示例和相关文档
专知会员服务
17+阅读 · 2019年10月9日
相关资讯
【Reformer】图解Reformer:一种高效的Transformer
深度学习自然语言处理
6+阅读 · 2020年3月9日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
2018机器学习开源资源盘点
专知
6+阅读 · 2019年2月2日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
6+阅读 · 2019年7月11日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Top
微信扫码咨询专知VIP会员