2017 年 12 月 Google 在论文「Attention is All You Need」中首次提出了 Transformer,将其作为一种通用高效的特征抽取器。至今,Transformer 已经被多种 NLP 模型采用,比如 BERT 和 XLNet,这些模型在多项 NLP 任务中都有突出表现。
在 NLP 之外,TTS,ASR 等领域也在逐步采用 Transformer。可以预见,Transformer 这个简洁有效的网络结构会像 CNN 和 RNN 一样被广泛采用。虽然 Transformer 在多种场景下都有优秀的表现,但是在推理部署阶段,其计算性能却受到了巨大的挑战:以 BERT 为原型的多层 Transformer 模型,其性能常常难以满足在线业务对于低延迟(保证服务质量)和高吞吐(考虑成本)的要求。因此,一个高效的 Transformer 前向计算方案,既可以为在线业务带来降本增效的作用,也有利于以 Transformer 结构为核心的各类网络在更多实际工业场景中落地。
NVIDIA GPU 计算专家团队针对 Transformer 推理提出了性能优化方案:Faster Transformer。
据介绍,Faster Transformer 是一个 BERT Transformer 单层前向计算的高效实现,其代码简洁明了,后续可以通过简单修改支持多种 Transformer 结构。目前,Faster Transformer的优化集中在编码器(encoder)的前向计算(解码器 decoder 开发在后续特性规划中)。底层由 CUDA 和 cuBLAS 实现,支持 FP16 和 FP32 两种计算模式,其中 FP16 可以充分利用 Volta 和 Turing 架构 GPU 上的 Tensor Core 计算单元。
不久之前,机器之心曾发文对英伟达开源的 Faster Transformer 进行了简要介绍。为向读者更细致的解读Faster Transformer背后的优化原理与细节, 9 月 26 日,NVIDIA 中国区 GPU 计算专家团队高级工程师将来带一场线上分享,详解 Faster Transformer。
Faster Transformer 综述
直播时间:2019 年 9月26 日 20:00—21:30
分享主题:Faster Transformer 综述
分享嘉宾:贾晓莹,NVIDIA 中国区 GPU 计算专家团队高级工程师
贾晓莹,2017 年博士毕业于香港科技大学,随后加入 NVIDIA GPU 计算专家团队,从事 NLP,CTR 以及 ASR 的模型在 GPU 上的高效推理实现及优化。
在本次直播中,你将了解到以下内容:
Faster Transformer 背后的优化原理及细节;
如何通过CUDA和cuBLAS在最新架构的GPU上实现高性能的Transformer Encoder。
点击阅读原文,注册后即可预约直播。
NVIDIA GPU计算专家团队致力于为中国客户提供基于GPU系统的最快解决方案,工作内容涉及视频图像处理、语音识别和合成、自然语言处理、推荐系统等各个方面,通过代码优化、模型优化和Pipeline优化,提供端到端的解决方案。本团队开源了若干原型项目,帮助用户评估GPU可以带来的业务收益,并通过进一步开发集成,利用GPU为用户降低成本,提高效率。