We propose a simple yet effective method to compress an RNN-Transducer (RNN-T) through the well-known knowledge distillation paradigm. We show that the transducer's encoder outputs naturally have a high entropy and contain rich information about acoustically similar word-piece confusions. This rich information is suppressed when combined with the lower entropy decoder outputs to produce the joint network logits. Consequently, we introduce an auxiliary loss to distill the encoder logits from a teacher transducer's encoder, and explore training strategies where this encoder distillation works effectively. We find that tandem training of teacher and student encoders with an inplace encoder distillation outperforms the use of a pre-trained and static teacher transducer. We also report an interesting phenomenon we refer to as implicit distillation, that occurs when the teacher and student encoders share the same decoder. Our experiments show 5.37-8.4% relative word error rate reductions (WERR) on in-house test sets, and 5.05-6.18% relative WERRs on LibriSpeech test sets.


翻译:我们提出一个简单而有效的方法,通过众所周知的知识蒸馏模式压缩RNN- Transporter(RNN-T) 。 我们表明, 转换器的编码器输出自然具有很高的灵敏度, 并含有声学上相似的字形混乱的丰富信息 。 这种丰富的信息在与低温的解码器输出结合以生成联合网络日志时被抑制 。 因此, 我们引入了一种辅助性损失, 从教师的转换器的编码器编码器中蒸馏编码器记录, 并探索该编码器蒸馏工作有效的培训策略 。 我们发现, 对教师和学生的编码器进行同步培训, 与一个内置的编码器蒸馏器相比, 使用一个受过预先训练的静态教师传感器。 我们还报告了一种有趣的现象, 我们称之为隐含的蒸馏器, 当教师和学生的编码器共享相同的解译器时, 就会发生这种现象。 我们的实验显示, 在室内测试器中, 5.37-8.4% 相对字差率降幅(WERRRR) 和5.05-6.

0
下载
关闭预览

相关内容

专知会员服务
39+阅读 · 2020年9月6日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Github项目推荐 | awesome-bert:BERT相关资源大列表
AI研习社
27+阅读 · 2019年2月26日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Python机器学习教程资料/代码
机器学习研究会
8+阅读 · 2018年2月22日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
已删除
将门创投
7+阅读 · 2017年7月11日
Arxiv
0+阅读 · 2021年8月17日
Angular-Based Word Meta-Embedding Learning
Arxiv
3+阅读 · 2018年8月13日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Github项目推荐 | awesome-bert:BERT相关资源大列表
AI研习社
27+阅读 · 2019年2月26日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Python机器学习教程资料/代码
机器学习研究会
8+阅读 · 2018年2月22日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
已删除
将门创投
7+阅读 · 2017年7月11日
Top
微信扫码咨询专知VIP会员