【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性

2020 年 4 月 14 日 专知

深度和大型的预训练语言模型是各种自然语言处理任务的最新技术。然而,这些模型的巨大尺寸可能会阻碍在实践中使用它们。最近的一些并行工作使用知识蒸馏来将这些庞大的模型压缩成小型模型。在这项工作中,我们以多语言命名实体识别(NER)为重点来研究知识蒸馏。特别地,我们研究了几种提炼策略,并提出了一种利用教师内部表征的阶段性优化方案,该方案不考虑教师体系结构,并证明其优于以往工作中所采用的策略。此外,我们还研究了几个因素的作用,比如未标记数据的数量、注释资源、模型架构和推理延迟等等。我们证明,我们的方法可以将类mbert教师模型的参数压缩高达35倍,批量推理的延迟压缩51倍,而NER超过41种语言的95%的f1分都保留下来。

https://www.zhuanzhi.ai/paper/0a3af87b4d60c792dc3ff93b9bbe3faa



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“PTOR” 就可以获取【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性》专知下载链接

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
1

相关内容

【ICML2020】对比多视角表示学习
专知会员服务
52+阅读 · 2020年6月28日
【ICML2020-哈佛】深度语言表示中可分流形
专知会员服务
12+阅读 · 2020年6月2日
【ACL2020】利用模拟退火实现无监督复述
专知会员服务
13+阅读 · 2020年5月26日
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
40+阅读 · 2020年3月21日
专知会员服务
44+阅读 · 2020年3月6日
【资源】NLP深度生成模型会议/论文列表
专知
9+阅读 · 2019年11月19日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
Pluralistic Image Completion
Arxiv
8+阅读 · 2019年3月11日
Arxiv
13+阅读 · 2019年1月26日
VIP会员
Top
微信扫码咨询专知VIP会员