【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性 - 专知VIP

会员服务 ·

0

预训练Transformer · ACL 2020 · 鲁棒性 ·

2020 年 4 月 14 日

【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

深度和大型的预训练语言模型是各种自然语言处理任务的最新技术。然而，这些模型的巨大尺寸可能会阻碍在实践中使用它们。最近的一些并行工作使用知识蒸馏来将这些庞大的模型压缩成小型模型。在这项工作中，我们以多语言命名实体识别(NER)为重点来研究知识蒸馏。特别地，我们研究了几种提炼策略，并提出了一种利用教师内部表征的阶段性优化方案，该方案不考虑教师体系结构，并证明其优于以往工作中所采用的策略。此外，我们还研究了几个因素的作用，比如未标记数据的数量、注释资源、模型架构和推理延迟等等。我们证明，我们的方法可以将类mbert教师模型的参数压缩高达35倍，批量推理的延迟压缩51倍，而NER超过41种语言的95%的f1分都保留下来。

成为VIP会员查看完整内容

20

相关内容

预训练Transformer

预训练Transformer

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【ICML2020】对比多视角表示学习

【ICML2020】对比多视角表示学习

专知会员服务

53+阅读 · 2020年6月28日

【ICML2020-哈佛】深度语言表示中可分流形

【ICML2020-哈佛】深度语言表示中可分流形

专知会员服务

13+阅读 · 2020年6月2日

【ACL2020】利用模拟退火实现无监督复述

【ACL2020】利用模拟退火实现无监督复述

专知会员服务

14+阅读 · 2020年5月26日

【ACL2020】TriggerNER:使用实体触发器学习作为解释用于命名实体识别

【ACL2020】TriggerNER:使用实体触发器学习作为解释用于命名实体识别

专知会员服务

23+阅读 · 2020年4月18日

【微软-ACL2020】TinyMBERT: Multi-Stage Distillation Framework for Massive Multi-lingual NER

【微软-ACL2020】TinyMBERT: Multi-Stage Distillation Framework for Massive Multi-lingual NER

专知会员服务

36+阅读 · 2020年4月14日

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

专知会员服务

34+阅读 · 2020年4月5日

【伯克利】再思考 Transformer中的Batch Normalization

【伯克利】再思考 Transformer中的Batch Normalization

专知会员服务

41+阅读 · 2020年3月21日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知会员服务

56+阅读 · 2020年3月12日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

机器之心

15+阅读 · 2019年7月13日

伯克利提出数据增强新方法，计算速度提升1000倍

伯克利提出数据增强新方法，计算速度提升1000倍

AI前线

12+阅读 · 2019年6月21日

NAACL 2019自然语言处理亮点

NAACL 2019自然语言处理亮点

专知

15+阅读 · 2019年6月15日

已删除

将门创投

6+阅读 · 2019年6月10日

【学界】大幅减少训练迭代次数，提高泛化能力：IBM提出「新版Dropout」

【学界】大幅减少训练迭代次数，提高泛化能力：IBM提出「新版Dropout」

GAN生成式对抗网络

7+阅读 · 2019年6月7日

进一步改进GPT和BERT：使用Transformer的语言模型

进一步改进GPT和BERT：使用Transformer的语言模型

机器之心

16+阅读 · 2019年5月1日

NAACL 2019 | 怎样生成语言才能更自然，斯坦福提出超越Perplexity的评估新方法

NAACL 2019 | 怎样生成语言才能更自然，斯坦福提出超越Perplexity的评估新方法

机器之心

6+阅读 · 2019年4月19日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

Zero-Resource Cross-Lingual Named Entity Recognition

Arxiv

5+阅读 · 2019年11月22日

Self-training with Noisy Student improves ImageNet classification

Arxiv

15+阅读 · 2019年11月11日

Span-based Joint Entity and Relation Extraction with Transformer Pre-training

Arxiv

7+阅读 · 2019年9月17日

X-BERT: eXtreme Multi-label Text Classification with BERT

X-BERT: eXtreme Multi-label Text Classification with BERT

Arxiv

12+阅读 · 2019年7月4日

Binary Constrained Deep Hashing Network for Image Retrieval without Manual Annotation

Binary Constrained Deep Hashing Network for Image Retrieval without Manual Annotation

Arxiv

3+阅读 · 2018年8月2日

Improving Image Captioning with Conditional Generative Adversarial Nets

Arxiv

9+阅读 · 2018年5月18日

Event Extraction with Generative Adversarial Imitation Learning

Arxiv

13+阅读 · 2018年4月21日

Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning

Arxiv

5+阅读 · 2018年4月3日

A Generative Model For Zero Shot Learning Using Conditional Variational Autoencoders

Arxiv

9+阅读 · 2018年1月27日

VIP会员

相关主题

预训练Transformer

相关VIP内容

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【ICML2020】对比多视角表示学习

【ICML2020】对比多视角表示学习

专知会员服务

53+阅读 · 2020年6月28日

【ICML2020-哈佛】深度语言表示中可分流形

【ICML2020-哈佛】深度语言表示中可分流形

专知会员服务

13+阅读 · 2020年6月2日

【ACL2020】利用模拟退火实现无监督复述

【ACL2020】利用模拟退火实现无监督复述

专知会员服务

14+阅读 · 2020年5月26日

【ACL2020】TriggerNER:使用实体触发器学习作为解释用于命名实体识别

【ACL2020】TriggerNER:使用实体触发器学习作为解释用于命名实体识别

专知会员服务

23+阅读 · 2020年4月18日

【微软-ACL2020】TinyMBERT: Multi-Stage Distillation Framework for Massive Multi-lingual NER

【微软-ACL2020】TinyMBERT: Multi-Stage Distillation Framework for Massive Multi-lingual NER

专知会员服务

36+阅读 · 2020年4月14日

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

专知会员服务

34+阅读 · 2020年4月5日

【伯克利】再思考 Transformer中的Batch Normalization

【伯克利】再思考 Transformer中的Batch Normalization

专知会员服务

41+阅读 · 2020年3月21日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知会员服务

56+阅读 · 2020年3月12日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

热门VIP内容

开通专知VIP会员享更多权益服务

《美陆军徒步机动作战条令手册》最新168页

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

军事后勤数字化未来展望

《美海军后勤体系整合与创新挑战》最新报告

相关资讯

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

机器之心

15+阅读 · 2019年7月13日

伯克利提出数据增强新方法，计算速度提升1000倍

伯克利提出数据增强新方法，计算速度提升1000倍

AI前线

12+阅读 · 2019年6月21日

NAACL 2019自然语言处理亮点

NAACL 2019自然语言处理亮点

专知

15+阅读 · 2019年6月15日

已删除

将门创投

6+阅读 · 2019年6月10日

【学界】大幅减少训练迭代次数，提高泛化能力：IBM提出「新版Dropout」

【学界】大幅减少训练迭代次数，提高泛化能力：IBM提出「新版Dropout」

GAN生成式对抗网络

7+阅读 · 2019年6月7日

进一步改进GPT和BERT：使用Transformer的语言模型

进一步改进GPT和BERT：使用Transformer的语言模型

机器之心

16+阅读 · 2019年5月1日

NAACL 2019 | 怎样生成语言才能更自然，斯坦福提出超越Perplexity的评估新方法

NAACL 2019 | 怎样生成语言才能更自然，斯坦福提出超越Perplexity的评估新方法

机器之心

6+阅读 · 2019年4月19日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

相关论文

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

Zero-Resource Cross-Lingual Named Entity Recognition

Arxiv

5+阅读 · 2019年11月22日

Self-training with Noisy Student improves ImageNet classification

Arxiv

15+阅读 · 2019年11月11日

Span-based Joint Entity and Relation Extraction with Transformer Pre-training

Arxiv

7+阅读 · 2019年9月17日

X-BERT: eXtreme Multi-label Text Classification with BERT

X-BERT: eXtreme Multi-label Text Classification with BERT

Arxiv

12+阅读 · 2019年7月4日

Binary Constrained Deep Hashing Network for Image Retrieval without Manual Annotation

Binary Constrained Deep Hashing Network for Image Retrieval without Manual Annotation

Arxiv

3+阅读 · 2018年8月2日

Improving Image Captioning with Conditional Generative Adversarial Nets

Arxiv

9+阅读 · 2018年5月18日

Event Extraction with Generative Adversarial Imitation Learning

Arxiv

13+阅读 · 2018年4月21日

Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning

Arxiv

5+阅读 · 2018年4月3日

A Generative Model For Zero Shot Learning Using Conditional Variational Autoencoders

Arxiv

9+阅读 · 2018年1月27日

微信扫码咨询专知VIP会员