深度和大型的预训练语言模型是各种自然语言处理任务的最新技术。然而,这些模型的巨大尺寸可能会阻碍在实践中使用它们。最近的一些并行工作使用知识蒸馏来将这些庞大的模型压缩成小型模型。在这项工作中,我们以多语言命名实体识别(NER)为重点来研究知识蒸馏。特别地,我们研究了几种提炼策略,并提出了一种利用教师内部表征的阶段性优化方案,该方案不考虑教师体系结构,并证明其优于以往工作中所采用的策略。此外,我们还研究了几个因素的作用,比如未标记数据的数量、注释资源、模型架构和推理延迟等等。我们证明,我们的方法可以将类mbert教师模型的参数压缩高达35倍,批量推理的延迟压缩51倍,而NER超过41种语言的95%的f1分都保留下来。

成为VIP会员查看完整内容
19

相关内容

【ICML2020】对比多视角表示学习
专知会员服务
52+阅读 · 2020年6月28日
【ICML2020-哈佛】深度语言表示中可分流形
专知会员服务
12+阅读 · 2020年6月2日
【ACL2020】利用模拟退火实现无监督复述
专知会员服务
13+阅读 · 2020年5月26日
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
33+阅读 · 2020年4月5日
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
40+阅读 · 2020年3月21日
专知会员服务
44+阅读 · 2020年3月6日
NAACL 2019自然语言处理亮点
专知
15+阅读 · 2019年6月15日
已删除
将门创投
6+阅读 · 2019年6月10日
进一步改进GPT和BERT:使用Transformer的语言模型
机器之心
16+阅读 · 2019年5月1日
Arxiv
5+阅读 · 2019年11月22日
VIP会员
相关VIP内容
【ICML2020】对比多视角表示学习
专知会员服务
52+阅读 · 2020年6月28日
【ICML2020-哈佛】深度语言表示中可分流形
专知会员服务
12+阅读 · 2020年6月2日
【ACL2020】利用模拟退火实现无监督复述
专知会员服务
13+阅读 · 2020年5月26日
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
33+阅读 · 2020年4月5日
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
40+阅读 · 2020年3月21日
专知会员服务
44+阅读 · 2020年3月6日
微信扫码咨询专知VIP会员