英伟达Faster Transformer：作者带你揭秘BERT优化

2019 年 9 月 18 日 机器之心

2017 年 12 月 Google 在论文「Attention is All You Need」中首次提出了 Transformer，将其作为一种通用高效的特征抽取器。至今，Transformer 已经被多种 NLP 模型采用，比如 BERT 和 XLNet，这些模型在多项 NLP 任务中都有突出表现。

在 NLP 之外，TTS，ASR 等领域也在逐步采用 Transformer。可以预见，Transformer 这个简洁有效的网络结构会像 CNN 和 RNN 一样被广泛采用。虽然 Transformer 在多种场景下都有优秀的表现，但是在推理部署阶段，其计算性能却受到了巨大的挑战：以 BERT 为原型的多层 Transformer 模型，其性能常常难以满足在线业务对于低延迟（保证服务质量）和高吞吐（考虑成本）的要求。因此，一个高效的 Transformer 前向计算方案，既可以为在线业务带来降本增效的作用，也有利于以 Transformer 结构为核心的各类网络在更多实际工业场景中落地。

NVIDIA GPU 计算专家团队针对 Transformer 推理提出了性能优化方案：Faster Transformer。

据介绍，Faster Transformer 是一个 BERT Transformer 单层前向计算的高效实现，其代码简洁明了，后续可以通过简单修改支持多种 Transformer 结构。目前，Faster Transformer的优化集中在编码器（encoder）的前向计算（解码器 decoder 开发在后续特性规划中）。底层由 CUDA 和 cuBLAS 实现，支持 FP16 和 FP32 两种计算模式，其中 FP16 可以充分利用 Volta 和 Turing 架构 GPU 上的 Tensor Core 计算单元。

不久之前，机器之心曾发文对英伟达开源的 Faster Transformer 进行了简要介绍。为向读者更细致的解读Faster Transformer背后的优化原理与细节， 9 月 26 日，NVIDIA 中国区 GPU 计算专家团队高级工程师将来带一场线上分享，详解 Faster Transformer。

Faster Transformer 综述

直播时间：2019 年 9月26 日 20:00—21:30

分享主题：Faster Transformer 综述

分享嘉宾：贾晓莹，NVIDIA 中国区 GPU 计算专家团队高级工程师

贾晓莹，2017 年博士毕业于香港科技大学，随后加入 NVIDIA GPU 计算专家团队，从事 NLP，CTR 以及 ASR 的模型在 GPU 上的高效推理实现及优化。

在本次直播中，你将了解到以下内容：

Faster Transformer 背后的优化原理及细节；
如何通过CUDA和cuBLAS在最新架构的GPU上实现高性能的Transformer Encoder。

点击阅读原文，注册后即可预约直播。

NVIDIA GPU计算专家团队致力于为中国客户提供基于GPU系统的最快解决方案，工作内容涉及视频图像处理、语音识别和合成、自然语言处理、推荐系统等各个方面，通过代码优化、模型优化和Pipeline优化，提供端到端的解决方案。本团队开源了若干原型项目，帮助用户评估GPU可以带来的业务收益，并通过进一步开发集成，利用GPU为用户降低成本，提高效率。

登录查看更多