项目名称: 基于概率声管模型的单通道语音分离研究

项目编号: No.61473168

项目类型: 面上项目

立项/批准年度: 2015

项目学科: 其他

项目作者: 欧智坚

作者单位: 清华大学

项目金额: 83万元

中文摘要: 单通道语音分离本质上是一个欠定问题。基于模型的方法是单通道语音分离研究的重要方向。尽管取得了一定成功,目前这些方法中使用的语音模型仍存在严重缺陷-属于对语音的不完整建模。语音的基本物理模型-声管模型,告诉我们语音的三个基本物理量-声管激励、激励增益和声道响应,及它们之间关系。但语音界一直缺乏一个真正能联合这三个基本量的概率模型,来刻划语音随机性。本项目提出概率声管模型,并运用到基于模型的单通道语音分离。其主要思想是,通过显式表述语音产生过程中的诸物理量,并对诸量如何一起作用产生语音进行概率化描述,建立语音的产生式模型。新模型将克服目前语音模型的不完整性的缺陷,为求解欠定的单通道语音分离问题提供更好的约束;同时新模型作为产生式模型,可以很自然结合高层知识,从而支持在语音分离中象图式驱动的听觉场景分析一样,实现自下而上和自上而下的信息双向流动。这些新举措有望带来单通道语音分离研究的新突破。

中文关键词: 语音分离;计算听觉场景分析;语音处理

英文摘要: Single-channel speech separation is essentially an underdetermined problem. Model-based approach is an important research direction for single-channel speech separation. Although with some success, current speech models used in these methods are still seriously flawed due to their incomplete modeling of speech. The basic physical model of speech - acoustic tube model, tells us that there are three basic physical parameters - the excitation function, the excitation gain and vocal tract response, and how they are interacted to generate speech. But for a long time, we lack a unified probabilistic model to integrate the three fundamental speech parameters to describe the randomness of speech. In this project, the probabilistic acoustic tube (PAT) model is proposed and applied to model-based single-channel speech separation. The main idea is to explicitly encode the physical parameters and describe how they are interacted to generate speech in probabilistic terms. The new model will overcome the current shortcoming of incomplete modeling, and provide better constraints for solving the underdetermined single-channel speech separation problem. Moreover, as a generative model, the new model can naturally incorporate high-level knowledge and realize two-way flow of information (bottom-up and top-down) for speech separation, like schema-driven auditory scene analysis. These new ideas are expected to bring a new breakthrough to the single-channel speech separation research.

英文关键词: Speech Separation;Computational Auditory Scene Analysis;Speech Processing

成为VIP会员查看完整内容
1

相关内容

专知会员服务
51+阅读 · 2021年6月17日
专知会员服务
73+阅读 · 2021年6月12日
【ICLR2021】常识人工智能,77页ppt
专知会员服务
73+阅读 · 2021年5月11日
KDD20 | AM-GCN:自适应多通道图卷积网络
专知会员服务
39+阅读 · 2020年8月26日
【ICML2020Tutorial】机器学习信号处理,100页ppt
专知会员服务
112+阅读 · 2020年8月15日
【KDD2020】自适应多通道图卷积神经网络
专知会员服务
119+阅读 · 2020年7月9日
一文带你了解语音信号处理技术
PaperWeekly
9+阅读 · 2022年1月26日
基于自监督的可逆性强化学习方法
AI前线
4+阅读 · 2021年12月3日
为语言障碍人士重现自然语音
TensorFlow
0+阅读 · 2021年9月28日
SFFAI分享 | 连政:端到端语音合成【附PPT与视频资料】
人工智能前沿讲习班
14+阅读 · 2019年6月16日
语音情绪识别|声源增强|基频可视化
深度学习每日摘要
15+阅读 · 2019年5月5日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
使用RNN-Transducer进行语音识别建模【附PPT与视频资料】
人工智能前沿讲习班
74+阅读 · 2019年1月29日
语音识别之--韩语语音识别
微信AI
15+阅读 · 2017年8月2日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月29日
Arxiv
33+阅读 · 2021年12月31日
Arxiv
31+阅读 · 2021年6月30日
小贴士
相关VIP内容
专知会员服务
51+阅读 · 2021年6月17日
专知会员服务
73+阅读 · 2021年6月12日
【ICLR2021】常识人工智能,77页ppt
专知会员服务
73+阅读 · 2021年5月11日
KDD20 | AM-GCN:自适应多通道图卷积网络
专知会员服务
39+阅读 · 2020年8月26日
【ICML2020Tutorial】机器学习信号处理,100页ppt
专知会员服务
112+阅读 · 2020年8月15日
【KDD2020】自适应多通道图卷积神经网络
专知会员服务
119+阅读 · 2020年7月9日
相关资讯
一文带你了解语音信号处理技术
PaperWeekly
9+阅读 · 2022年1月26日
基于自监督的可逆性强化学习方法
AI前线
4+阅读 · 2021年12月3日
为语言障碍人士重现自然语音
TensorFlow
0+阅读 · 2021年9月28日
SFFAI分享 | 连政:端到端语音合成【附PPT与视频资料】
人工智能前沿讲习班
14+阅读 · 2019年6月16日
语音情绪识别|声源增强|基频可视化
深度学习每日摘要
15+阅读 · 2019年5月5日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
使用RNN-Transducer进行语音识别建模【附PPT与视频资料】
人工智能前沿讲习班
74+阅读 · 2019年1月29日
语音识别之--韩语语音识别
微信AI
15+阅读 · 2017年8月2日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员