The Transformer architecture revolutionized the field of natural language processing (NLP). Transformers-based models (e.g., BERT) power many important Web services, such as search, translation, question-answering, etc. While enormous research attention is paid to the training of those models, relatively little efforts are made to improve their inference performance. This paper comes to address this gap by presenting an empirical analysis of scalability and performance of inferencing a Transformer-based model on CPUs. Focusing on the highly popular BERT model, we identify key components of the Transformer architecture where the bulk of the computation happens, and propose three optimizations to speed them up. The optimizations are evaluated using the inference benchmark from HuggingFace, and are shown to achieve the speedup of up to x2.36. The considered optimizations do not require any changes to the implementation of the models nor affect their accuracy.


翻译:变换器结构将自然语言处理领域(NLP)革命化。以变换器为基础的模型(例如BERT)使许多重要的网络服务,例如搜索、翻译、问答等。虽然对这些模型的培训给予了巨大的研究关注,但相对而言,为改进这些模型的推论性能所作的努力相对较少。本文通过对基于变换器的CPU模型的推论性能和性能进行经验性分析来弥补这一差距。我们侧重于广受欢迎的BERT模型,我们确定了变换器结构中大部分计算的关键组成部分,并提出了三种优化以加速这些结构。优化是利用HuggingFace的推论基准进行评估的,并表明优化可以达到x2.36的加速速度。经过考虑的优化并不要求对模型的实施作任何改变,也不影响其准确性。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
307+阅读 · 2020年11月26日
TensorFlowLite:端侧机器学习框架
专知会员服务
32+阅读 · 2020年8月27日
专知会员服务
15+阅读 · 2020年7月27日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
23+阅读 · 2019年11月4日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
已删除
将门创投
4+阅读 · 2019年10月11日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
移动端机器学习资源合集
专知
8+阅读 · 2019年4月21日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Arxiv
3+阅读 · 2018年3月2日
VIP会员
相关VIP内容
最新《Transformers模型》教程,64页ppt
专知会员服务
307+阅读 · 2020年11月26日
TensorFlowLite:端侧机器学习框架
专知会员服务
32+阅读 · 2020年8月27日
专知会员服务
15+阅读 · 2020年7月27日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
23+阅读 · 2019年11月4日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
已删除
将门创投
4+阅读 · 2019年10月11日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
移动端机器学习资源合集
专知
8+阅读 · 2019年4月21日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Top
微信扫码咨询专知VIP会员