In this paper, several works are proposed to address practical challenges for deploying RNN Transducer (RNN-T) based speech recognition system. These challenges are adapting a well-trained RNN-T model to a new domain without collecting the audio data, obtaining time stamps and confidence scores at word level. The first challenge is solved with a splicing data method which concatenates the speech segments extracted from the source domain data. To get the time stamp, a phone prediction branch is added to the RNN-T model by sharing the encoder for the purpose of force alignment. Finally, we obtain word-level confidence scores by utilizing several types of features calculated during decoding and from confusion network. Evaluated with Microsoft production data, the splicing data adaptation method improves the baseline and adaption with the text to speech method by 58.03% and 15.25% relative word error rate reduction, respectively. The proposed time stamping method can get less than 50ms word timing difference on average while maintaining the recognition accuracy of the RNN-T model. We also obtain high confidence annotation performance with limited computation cost


翻译:在本文中,针对部署基于 RNN NN Transporter (RNN-T) 语音识别系统的实际挑战,提出了几项工程建议,以解决部署基于 RNNN Transporter (RNNN-T) 的语音识别系统的实际挑战。 这些挑战正在将训练有素的 RNNN-T 模式改造成一个新的领域,而不收集音频数据,获得时间戳和字级信任分数。 第一个挑战是通过混合数据方法来解决,该方法将从源域数据中提取的语音部分混为一体。 为了获得时间戳,通过共享编码器进行电话预测,为部队对齐。 最后,我们通过使用在解码和混乱网络中计算的若干类型特征获得字级信任度评分。 通过微软生产数据评估, 组合数据调整方法使文本的基线和适应语音方法分别改进了58.03%和15.25%的相对单字错误率降低率。 拟议的时间戳法平均可得到不到50米字时间差,同时保持 RNNN-T 模型的准确性。 我们还通过使用有限的计算成本计算方法获得高度信任度评分。

0
下载
关闭预览

相关内容

【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
77+阅读 · 2020年2月3日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
已删除
将门创投
3+阅读 · 2019年6月12日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【推荐】RNN最新研究进展综述
机器学习研究会
26+阅读 · 2018年1月6日
【CNN】一文读懂卷积神经网络CNN
产业智能官
18+阅读 · 2018年1月2日
资源|斯坦福课程:深度学习理论!
全球人工智能
17+阅读 · 2017年11月9日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
5+阅读 · 2019年11月22日
Arxiv
10+阅读 · 2018年2月4日
VIP会员
相关资讯
已删除
将门创投
3+阅读 · 2019年6月12日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【推荐】RNN最新研究进展综述
机器学习研究会
26+阅读 · 2018年1月6日
【CNN】一文读懂卷积神经网络CNN
产业智能官
18+阅读 · 2018年1月2日
资源|斯坦福课程:深度学习理论!
全球人工智能
17+阅读 · 2017年11月9日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员