项目名称: 基于数据和模式双驱动CASA语音分离研究

项目编号: No.61273267

项目类型: 面上项目

立项/批准年度: 2013

项目学科: 自动化技术、计算机技术

项目作者: 刘文举

作者单位: 中国科学院自动化研究所

项目金额: 81万元

中文摘要: 困扰语音识别走向实用的羁绊之一是噪声消除问题,而传统的语音增强方法难以应对非平稳噪音,如:人声背景噪声,计算听觉场景分析(CASA)的语音分离方法提供了一条颇具潜力的解决途径。现有CASA系统大致分为基于数据驱动和基于模式驱动两种方式,数据驱动偏重强调利用底层声学线索的自下而上的处理机制;而模式驱动则强调利用人的学习机制的自上而下的处理方式,迄今缺少有效融合两种方式的CASA系统。事实上,人的听觉感知系统是两种方式并存的有机整体,基于此,本项研究提出基于数据和模式双驱动的CASA语音分离新方法,旨在克服现有系统单一驱动的缺陷,使CASA技术获得跨越发展。主要研究内容包括:数据驱动核心基础的多基频提取和组织方法、模式驱动关键环节的学习和分类模型、以及数据和模式双驱动的有效融合方法等。本项研究对于数字媒体领域的多媒体检索、声学目标检索、语音增强、鲁棒性语音识别等关键技术具有重要意义和学术价值。

中文关键词: 语音分离;计算听觉场景分析;数据驱动;模式驱动;信噪比

英文摘要: One of fetters to perplex speech recognition applications is background noise cancelation while conventional speech enhancement algorithms are hard to handle unstable noise, for example, background noise of speech, however speech seperation approach with computational auditory scene analysis(CASA) provides a well potential way. The available CASA systems are divided roughly into two categories, namely data driven based and schema driven based, to which the former emphasezes bottem up mechanism by utilizing primitive acoustic cues, while the latter stresses top dowm processing way of human learning ability. Up to now it is short of CASA system to cooperate two kinds of processing mechanism efficiently. Base on the fact that human auditory perception system is an organic integrity with the existence of both two processing ways, a CASA novel methed of speech separation is presented based on both data driven and schema driven in the proposal.The goal is to conquer the flaw of single driven style in the available CASA system and promotes CASA technology leapfrog development. The main research contents include kernel groundwork of data driven policy such as multipitch extraction and grouping strategy in data driven, crucial points of schema driven way such as machine learning or classifying model, and efficient fusion

英文关键词: Speech Separation;Computational Auditory Scene Analysis;Data Driven;Schema Driven;Signal to Noise Ratio

成为VIP会员查看完整内容
0

相关内容

专知会员服务
15+阅读 · 2021年5月13日
专知会员服务
35+阅读 · 2021年5月10日
专知会员服务
14+阅读 · 2021年3月26日
基于深度学习的数据融合方法研究综述
专知会员服务
136+阅读 · 2020年12月10日
专知会员服务
142+阅读 · 2020年9月6日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
117+阅读 · 2020年5月10日
专知会员服务
221+阅读 · 2020年5月6日
专知会员服务
103+阅读 · 2020年3月12日
自动结构变分推理,Automatic structured variational inference
专知会员服务
38+阅读 · 2020年2月10日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
142+阅读 · 2019年10月10日
数据分片架构的下一次进化
InfoQ
0+阅读 · 2022年2月20日
一文带你了解语音信号处理技术
PaperWeekly
9+阅读 · 2022年1月26日
语音合成:模拟最像人类声音的系统
PaperWeekly
2+阅读 · 2021年11月30日
Interspeech 2019 | 基于多模态对齐的语音情感识别
AI科技评论
23+阅读 · 2019年9月21日
开放下载!《阿里语音与信号处理技术》精选集
阿里技术
10+阅读 · 2019年6月5日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月17日
Arxiv
13+阅读 · 2021年10月22日
小贴士
相关VIP内容
专知会员服务
15+阅读 · 2021年5月13日
专知会员服务
35+阅读 · 2021年5月10日
专知会员服务
14+阅读 · 2021年3月26日
基于深度学习的数据融合方法研究综述
专知会员服务
136+阅读 · 2020年12月10日
专知会员服务
142+阅读 · 2020年9月6日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
117+阅读 · 2020年5月10日
专知会员服务
221+阅读 · 2020年5月6日
专知会员服务
103+阅读 · 2020年3月12日
自动结构变分推理,Automatic structured variational inference
专知会员服务
38+阅读 · 2020年2月10日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
142+阅读 · 2019年10月10日
相关资讯
数据分片架构的下一次进化
InfoQ
0+阅读 · 2022年2月20日
一文带你了解语音信号处理技术
PaperWeekly
9+阅读 · 2022年1月26日
语音合成:模拟最像人类声音的系统
PaperWeekly
2+阅读 · 2021年11月30日
Interspeech 2019 | 基于多模态对齐的语音情感识别
AI科技评论
23+阅读 · 2019年9月21日
开放下载!《阿里语音与信号处理技术》精选集
阿里技术
10+阅读 · 2019年6月5日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员