Comprehending the overall intent of an utterance helps a listener recognize the individual words spoken. Inspired by this fact, we perform a novel study of the impact of explicitly incorporating intent representations as additional information to improve a recurrent neural network-transducer (RNN-T) based automatic speech recognition (ASR) system. An audio-to-intent (A2I) model encodes the intent of the utterance in the form of embeddings or posteriors, and these are used as auxiliary inputs for RNN-T training and inference. Experimenting with a 50k-hour far-field English speech corpus, this study shows that when running the system in non-streaming mode, where intent representation is extracted from the entire utterance and then used to bias streaming RNN-T search from the start, it provides a 5.56% relative word error rate reduction (WERR). On the other hand, a streaming system using per-frame intent posteriors as extra inputs for the RNN-T ASR system yields a 3.33% relative WERR. A further detailed analysis of the streaming system indicates that our proposed method brings especially good gain on media-playing related intents (e.g. 9.12% relative WERR on PlayMusicIntent).


翻译:受此事实的启发,我们进行了一项新颖的研究,研究明确将意向表达作为补充信息纳入系统的影响,以改进基于常规神经网络-传输器(RNN-T)的自动语音识别系统。音频到意图模型以嵌入或后缀的形式将表达意向编码成一个5.56%相对字错误率降低值。另一方面,一个流流系统使用每框架意图后缀作为RNN-T ASR系统的额外投入。试验一个50公里远处的远处英语语音资料库,该研究显示,在以非流式模式运行系统时,如果从整个发言中提取意向表示,然后从一开始用于偏向流出RNN-T搜索(ASR)系统,则提供5.56%相对字错误率降低值。另一方面,一个流系统使用每框架意向后缀作为RNN-T ASR系统的额外投入,产生3.33%的相对WERR。对流式系统进行进一步的详细分析,显示在流式媒体意图上显示我们的拟议方法将带来良好的收益。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Arxiv
4+阅读 · 2019年1月1日
Arxiv
8+阅读 · 2018年11月27日
VIP会员
Top
微信扫码咨询专知VIP会员