项目名称: 基于稀疏时频分析与二元掩蔽估计的耳语音可懂度增强研究

项目编号: No.61301295

项目类型: 青年科学基金项目

立项/批准年度: 2014

项目学科: 无线电电子学、电信技术

项目作者: 周健

作者单位: 安徽大学

项目金额: 24万元

中文摘要: 耳语是一种能量极低的特殊发音方式,其传递的信息易受噪声干扰而被掩蔽。传统语音增强方法无法提高耳语音可懂度,而现有的基于机器学习的二元掩蔽方法仍有不足。本项目研究噪声环境下通过去噪提高耳语音可懂度的单通道语音增强方法。该项目在我们前期工作观察到稀疏时频谱有助于提高耳语音可懂度基础上,拟于稀疏联合时频域,探索通过估计时频块的二元掩蔽值提取语音能量为主的时频块,进而利用这些稀疏时频块稳定重建增强后的耳语音的相关理论和技术。主要研究内容包括: 以过抽样实值离散Gabor时频分析为基础,研究欠抽样实值离散Gabor变换及展开理论,解决欠抽样时信号稳定重建难题,从而建立耳语音稀疏时频谱表示模型;为了克服基于有监督机器学习的二元掩蔽值估计方法的缺点,本项目还将利用卷积非负矩阵分解理论研究基于稀疏时频谱表示的无监督二元掩蔽值学习方法,最终获得可懂度得到大幅度提高的干净耳语音。

中文关键词: 耳语音;语音可懂度;卷积非负矩阵分解;二元掩蔽估计;非对称代价函数

英文摘要: Whisper is a special voicing style with very low energy, and the conveyed information is easily concealed by noise in an adverse environment. The conventional speech enhancement algorithms, however, do not improve the intelligibility of the enhanced speech, the supervised machine learning based binary mask estimation methods also have some disadvantages. This project studies single channel speech enhancement method which aims to improve the intelligibility of the whisper in noise environment. Based on the previous work in which we find that sparse time-frequency spectrum is beneficial to whisper intelligibility improvement, this project explores theories and technologies of extracting speech energy dominated time-frequency unit through estimating the binary mask of each time-frequency unit and then reconstructing the enhanced whisper from these sparse time-frequency units in the joint sparse time-frequency domain. Major research contents include: based on oversample real-valued discrete Gabor time-frequency analysis, studying the under sample real-valued discrete Gabor transform and expansion theories to solve the stable signal reconstruction problem, and thereafter build the sparse time-frequency spectrum representation model of whisper; in order to overcome the defect of the binary mask estimation method whic

英文关键词: Whisper;Speech intelligibility;Convolution non-negative matrix factorization;Binary mask estimation;Asymmetric cost function

成为VIP会员查看完整内容
0

相关内容

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习
专知会员服务
48+阅读 · 2021年12月20日
专知会员服务
15+阅读 · 2021年10月11日
专知会员服务
48+阅读 · 2021年8月29日
专知会员服务
51+阅读 · 2021年6月17日
【KDD2020】基于动态知识图谱的多事件预测
专知会员服务
57+阅读 · 2020年11月10日
【MIT】理解深度学习网络里单个神经元的作用
专知会员服务
28+阅读 · 2020年9月12日
专知会员服务
29+阅读 · 2020年7月31日
【ICLR2020-】基于记忆的图网络,MEMORY-BASED GRAPH NETWORKS
专知会员服务
108+阅读 · 2020年2月22日
论文浅尝 | 面向视觉常识推理的层次语义增强方向图网络
【党史学习】邓小平重要论述(六)
中国图象图形学学会CSIG
0+阅读 · 2021年11月5日
Interspeech 2019 | 基于多模态对齐的语音情感识别
AI科技评论
23+阅读 · 2019年9月21日
语音情绪识别|声源增强|基频可视化
深度学习每日摘要
15+阅读 · 2019年5月5日
OCR技术浅析
机器学习研究会
40+阅读 · 2017年12月8日
共享相关任务表征,一文读懂深度神经网络多任务学习
深度学习世界
16+阅读 · 2017年6月23日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Tikhonov Regularization of Circle-Valued Signals
Arxiv
1+阅读 · 2022年4月20日
Chinese Idiom Paraphrasing
Arxiv
0+阅读 · 2022年4月15日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
小贴士
相关VIP内容
【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习
专知会员服务
48+阅读 · 2021年12月20日
专知会员服务
15+阅读 · 2021年10月11日
专知会员服务
48+阅读 · 2021年8月29日
专知会员服务
51+阅读 · 2021年6月17日
【KDD2020】基于动态知识图谱的多事件预测
专知会员服务
57+阅读 · 2020年11月10日
【MIT】理解深度学习网络里单个神经元的作用
专知会员服务
28+阅读 · 2020年9月12日
专知会员服务
29+阅读 · 2020年7月31日
【ICLR2020-】基于记忆的图网络,MEMORY-BASED GRAPH NETWORKS
专知会员服务
108+阅读 · 2020年2月22日
相关资讯
论文浅尝 | 面向视觉常识推理的层次语义增强方向图网络
【党史学习】邓小平重要论述(六)
中国图象图形学学会CSIG
0+阅读 · 2021年11月5日
Interspeech 2019 | 基于多模态对齐的语音情感识别
AI科技评论
23+阅读 · 2019年9月21日
语音情绪识别|声源增强|基频可视化
深度学习每日摘要
15+阅读 · 2019年5月5日
OCR技术浅析
机器学习研究会
40+阅读 · 2017年12月8日
共享相关任务表征,一文读懂深度神经网络多任务学习
深度学习世界
16+阅读 · 2017年6月23日
相关基金
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员