题目: DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference

摘要:

大规模的预训练语言模型(如BERT)给NLP应用带来了显著的改进。然而,它们也因推理速度慢而臭名昭著,这使得它们很难部署到实时应用程序中。我们提出了一个简单而有效的方法DeeBERT,来加速BERT推理。我们的方法允许样本在不经过整个模型的情况下提前退出。实验表明,在模型质量下降最小的情况下,DeeBERT可以节省高达40%的推理时间。进一步的分析显示了伯特变压器层的不同行为,并揭示了它们的冗余性。我们的工作为有效地将深度转换模型应用于下游任务提供了新的思路。

成为VIP会员查看完整内容
20

相关内容

自然语言处理(NLP)是语言学,计算机科学,信息工程和人工智能的一个子领域,与计算机和人类(自然)语言之间的相互作用有关,尤其是如何对计算机进行编程以处理和分析大量自然语言数据 。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性
专知会员服务
19+阅读 · 2020年4月14日
深度神经网络模型压缩与加速综述
专知会员服务
126+阅读 · 2019年10月12日
AAAI 2020论文解读:关注实体以更好地理解文本
AI科技评论
17+阅读 · 2019年11月20日
基于知识蒸馏的BERT模型压缩
大数据文摘
18+阅读 · 2019年10月14日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
21+阅读 · 2019年8月30日
已删除
将门创投
7+阅读 · 2018年11月5日
Arxiv
5+阅读 · 2020年3月16日
Arxiv
4+阅读 · 2019年9月5日
Arxiv
5+阅读 · 2019年4月21日
VIP会员
微信扫码咨询专知VIP会员