主题: A Survey of Methods for Model Compression in NLP

摘要: 近年来,基于Transformer的语言模型在神经机器翻译,自然语言推理和许多其他自然语言理解任务方面取得了实质性进展。 通过语言建模损失的变体进行自我监督的预训练意味着,在广泛的语料库上训练的模型可以提高在一系列任务上的下游性能。 但是,高参数数量和大计算量意味着BERT和友人的生产部署仍然很困难。 值得庆幸的是,在过去的两年中,已经开发出了多种技术来缓解疼痛并缩短预测时间。 特别是,本文重点介绍在基础模型预训练后应用的以下方法,以减少预测的计算成本:

  • 数值精度降低
  • 操作融合
  • 修剪
  • 知识蒸馏
  • 模块更换

成为VIP会员查看完整内容
41

相关内容

NLP:自然语言处理
【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性
专知会员服务
19+阅读 · 2020年4月14日
深度神经网络模型压缩与加速综述
专知会员服务
126+阅读 · 2019年10月12日
3分钟看懂史上最强NLP模型BERT
新智元
22+阅读 · 2019年2月27日
自然语言处理中注意力机制综述
Python开发者
11+阅读 · 2019年1月31日
CNN模型压缩与加速算法综述
微信AI
6+阅读 · 2017年10月11日
CNN 模型压缩与加速算法综述
机器学习研究会
15+阅读 · 2017年8月25日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
23+阅读 · 2017年7月9日
Arxiv
6+阅读 · 2020年4月14日
Arxiv
29+阅读 · 2020年3月16日
A Comprehensive Survey on Transfer Learning
Arxiv
117+阅读 · 2019年11月7日
Arxiv
18+阅读 · 2019年1月16日
Arxiv
21+阅读 · 2018年8月30日
VIP会员
相关VIP内容
【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性
专知会员服务
19+阅读 · 2020年4月14日
深度神经网络模型压缩与加速综述
专知会员服务
126+阅读 · 2019年10月12日
相关论文
Arxiv
6+阅读 · 2020年4月14日
Arxiv
29+阅读 · 2020年3月16日
A Comprehensive Survey on Transfer Learning
Arxiv
117+阅读 · 2019年11月7日
Arxiv
18+阅读 · 2019年1月16日
Arxiv
21+阅读 · 2018年8月30日
微信扫码咨询专知VIP会员