This paper proposes a method to relax the conditional independence assumption of connectionist temporal classification (CTC)-based automatic speech recognition (ASR) models. We train a CTC-based ASR model with auxiliary CTC losses in intermediate layers in addition to the original CTC loss in the last layer. During both training and inference, each generated prediction in the intermediate layers is summed to the input of the next layer to condition the prediction of the last layer on those intermediate predictions. Our method is easy to implement and retains the merits of CTC-based ASR: a simple model architecture and fast decoding speed. We conduct experiments on three different ASR corpora. Our proposed method improves a standard CTC model significantly (e.g., more than 20 % relative word error rate reduction on the WSJ corpus) with a little computational overhead. Moreover, for the TEDLIUM2 corpus and the AISHELL-1 corpus, it achieves a comparable performance to a strong autoregressive model with beam search, but the decoding speed is at least 30 times faster.


翻译:本文建议采用一种方法,放松基于连接器时间分类(CTC)自动语音识别(ASR)模型的有条件独立假设。我们用基于CTC的ASR模型培训中间层的辅助性CTC损失,除了最初的CTC在最后一层的损失之外,还有中间层的辅助性CTC损失。在培训和推断过程中,中间层的预测都与下层的投入相提并论,以这些中间预测为预测最后一个层的条件。我们的方法很容易实施并保留基于CTC的ASR的优点:一个简单的模型架构和快速解码速度。我们用三种不同的ASR公司进行实验。我们提议的方法大大改进了标准的CTC模型(例如,在WSJ系统上减少20%以上的相对字差率),并略微地做了计算。此外,对于TEDLIUM2系统和AISHELL-1程序来说,其性能与一个强大的自动递增模型相似,进行波段搜索,但解码速度至少要快30倍。

0
下载
关闭预览

相关内容

【UAI2021教程】贝叶斯最优学习,65页ppt
专知会员服务
64+阅读 · 2021年8月7日
注意力机制综述
专知会员服务
82+阅读 · 2021年1月26日
剑桥大学《数据科学: 原理与实践》课程,附PPT下载
专知会员服务
49+阅读 · 2021年1月20日
专知会员服务
17+阅读 · 2020年9月6日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】RNN最新研究进展综述
机器学习研究会
25+阅读 · 2018年1月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年12月1日
Arxiv
5+阅读 · 2020年10月14日
Teacher-Student Training for Robust Tacotron-based TTS
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】RNN最新研究进展综述
机器学习研究会
25+阅读 · 2018年1月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员