项目名称: 基于深度神经网络的噪声鲁棒性语音识别方法研究

项目编号: No.61305002

项目类型: 青年科学基金项目

立项/批准年度: 2014

项目学科: 自动化技术、计算机技术

项目作者: 杜俊

作者单位: 中国科学技术大学

项目金额: 25万元

中文摘要: 提高语音识别系统在实际环境下的噪声鲁棒性是语音识别实用化的关键难点和研究热点之一。但由于语音和噪声信号的统计特性都极其复杂,而传统噪声鲁棒性方法为了方便理论推导又作了诸多假设,从而很大程度上限制了识别性能的提高,并且不同方法之间的互补优势也无法很好结合。随着深度神经网络(DNN)在大词汇量连续语音识别声学建模中的成功应用,DNN结合噪声鲁棒性问题的研究,将有望弥补传统噪声鲁棒性方法的缺陷,并带来突破性进展。本项目旨在充分利用DNN强大的非线性建模能力,一方面将DNN用于前端特征提取,比如学习带噪语音和"干净语音"之间的映射关系;另一方面将DNN用于后端声学建模,比如使用Hierarchical DNN将不同前端算法加以融合;此外前后端两个DNN还可以联合优化,以期最大程度的提高噪声环境下语音识别的性能。同时,本项目部分研究成果对语音增强等信号处理领域的基础问题也具有重要意义。

中文关键词: 语音识别;深度神经网络;噪声鲁棒性;预处理;后处理

英文摘要: Improving the noise robustness of automatic speech recogntion (ASR) system in real scenarios is one of the key challenges and hot topics for the application of speech recognition. But as the statistical properties of both speech and noise signals are extremely complicated, and many assumptions are made for convenient theorectical derivation in traditional noise-robust methods, the improvement of recognition performance is limited to some extent, and the advantages of different methods can not be combined properly. With the successful application of deep neural network (DNN) for the acoustic modeling of large vocabulary continuous speech recognition (LVCSR), the research on DNN for noise robustness is expected to make up the defects of traditional noise-robust methods and bring the breakthrough. This project aims to fully exploiting powerful capability of DNN for nonlinear modeling. On the one hand, DNN is used in front-end for feature extraction, e.g., to learn the mapping function between the noisy speech and "clean speech". On the other hand, DNN is used for acoustic modeling in back-end, e.g., to combine different front-end algorithms by using Hierarchical DNN. Besides, two DNNs of both front-end and back-end can also be concatenated for joint optimization. Hopefully it can further improve the recognition per

英文关键词: speech recognition;deep neural network;noise robustness;pre-processing;post-processing

成为VIP会员查看完整内容
3

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
多语言语音识别声学模型建模方法最新进展
专知会员服务
33+阅读 · 2022年2月7日
图神经网络前沿进展与应用
专知会员服务
146+阅读 · 2022年1月24日
深度学习模型鲁棒性研究综述
专知会员服务
91+阅读 · 2022年1月23日
自监督学习最新研究进展
专知会员服务
76+阅读 · 2021年3月24日
专知会员服务
57+阅读 · 2020年12月6日
专知会员服务
114+阅读 · 2020年8月22日
鲁棒模式识别研究进展
专知会员服务
40+阅读 · 2020年8月9日
复旦大学邱锡鹏老师《神经网络与深度学习》书册最新版
「深度学习模型鲁棒性」最新2022综述
专知
7+阅读 · 2022年1月23日
语音合成:模拟最像人类声音的系统
PaperWeekly
2+阅读 · 2021年11月30日
最全综述:基于深度学习的三维重建算法
极市平台
12+阅读 · 2020年3月17日
生成对抗网络的研究进展与趋势
中国计算机学会
35+阅读 · 2018年11月14日
【好文解析】ICASSP最佳学生论文:深度对抗声学模型训练框架
中国科学院自动化研究所
13+阅读 · 2018年4月28日
语音识别之--韩语语音识别
微信AI
15+阅读 · 2017年8月2日
微信美女研究员:详解CNN在语音识别中的应用
机械鸡
13+阅读 · 2017年7月28日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月19日
A Survey on Deep Learning for Named Entity Recognition
Arxiv
26+阅读 · 2020年3月13日
Arxiv
15+阅读 · 2018年2月4日
小贴士
相关VIP内容
多语言语音识别声学模型建模方法最新进展
专知会员服务
33+阅读 · 2022年2月7日
图神经网络前沿进展与应用
专知会员服务
146+阅读 · 2022年1月24日
深度学习模型鲁棒性研究综述
专知会员服务
91+阅读 · 2022年1月23日
自监督学习最新研究进展
专知会员服务
76+阅读 · 2021年3月24日
专知会员服务
57+阅读 · 2020年12月6日
专知会员服务
114+阅读 · 2020年8月22日
鲁棒模式识别研究进展
专知会员服务
40+阅读 · 2020年8月9日
复旦大学邱锡鹏老师《神经网络与深度学习》书册最新版
相关资讯
「深度学习模型鲁棒性」最新2022综述
专知
7+阅读 · 2022年1月23日
语音合成:模拟最像人类声音的系统
PaperWeekly
2+阅读 · 2021年11月30日
最全综述:基于深度学习的三维重建算法
极市平台
12+阅读 · 2020年3月17日
生成对抗网络的研究进展与趋势
中国计算机学会
35+阅读 · 2018年11月14日
【好文解析】ICASSP最佳学生论文:深度对抗声学模型训练框架
中国科学院自动化研究所
13+阅读 · 2018年4月28日
语音识别之--韩语语音识别
微信AI
15+阅读 · 2017年8月2日
微信美女研究员:详解CNN在语音识别中的应用
机械鸡
13+阅读 · 2017年7月28日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员