面向语音表示及分离的结构化深度学习研究 - 专知基金

会员服务 ·

1

深度学习 · 马尔科夫蒙特卡洛抽样 · 语音表示 · 结构化学习 · 语音分离 ·

2014 年 12 月 31 日

面向语音表示及分离的结构化深度学习研究

国家自然科学基金

国家自然科学基金委员会

项目名称： 面向语音表示及分离的结构化深度学习研究

项目编号： No.61471394

项目类型： 面上项目

立项/批准年度： 2015

项目学科： 无线电电子学、电信技术

项目作者： 张雄伟

作者单位： 中国人民解放军陆军工程大学

项目金额： 80万元

中文摘要： 语音信号存在着大量的可变因素，例如不同说话人、说话语气、背景噪声、其他说话人的声音、回声等。人类的听觉感知系统可以轻易过滤掉干扰信息，并提取出有用信息，对语音的表现形式和环境的变化具有良好的适应性。深度学习模拟人脑对感知信息的处理过程，该方法为语音的表示和分离提供了新的思路。本课题以深度学习的理论和算法为基础，针对语音信号的表示和分离问题，通过研究和改进结构化深度信念网络模型，突破训练过程中的模型拓扑结构不确定、运算复杂度高、优化问题非凸等关键难点，获取语音信号更好的层次化表示，实现不同信源以及噪声的分离，为后续语音处理任务提供更好的前端模型。

中文关键词： 深度学习；马尔科夫蒙特卡洛抽样；语音表示；结构化学习；语音分离

英文摘要： There are a lot of variations in speech signals, such as different speakers, various emotions, miscellaneous background noise and reverberations. However, the hearing system of human is able to be adapted to those variations in a smart way by filtering out irrelevant noise towards useful target information. Deep learning simulates the information processing in human brain. This provides us a novel approach to speech representation and seperation. In this project, deep learning is deployed and improved towards better solutions of speech representation and separation. The key steps are to investigate structured deep belief networks, to determine the network topology adaptively, to overcome the high computational complexity and to alleviate the non-convexity in optimization. By separating different speech sources and noise, better acoustic models can be obtained for the subsequent speech processing tasks.

英文关键词： deep learning;MCMC sampling;speech representation;structured learning;speech separation

成为VIP会员查看完整内容

1

相关内容

深度学习

机器学习的一个分支，它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知会员服务

91+阅读 · 2022年4月5日

神经结构搜索的研究进展综述

神经结构搜索的研究进展综述

专知会员服务

36+阅读 · 2022年1月12日

【上海交通大学陈露博士论文】认知型口语交互系统中的对话管理技术

【上海交通大学陈露博士论文】认知型口语交互系统中的对话管理技术

专知会员服务

39+阅读 · 2021年11月23日

【NeurIPS2021】利用预训练对比表示征的逆问题

专知会员服务

10+阅读 · 2021年10月17日

【ICML2021】贝叶斯结构自适应的持续学习

专知会员服务

35+阅读 · 2021年9月18日

【CMU博士论文】面向分布偏移的自然语言处理学习神经模型，148页pdf

专知会员服务

37+阅读 · 2021年9月7日

【ACL2021】Hi-Transformer：一种具有层次化和交互式特点的长文档建模结构

专知会员服务

13+阅读 · 2021年8月4日

【ICML2021】协同对抗鲁棒的迁移学习

专知会员服务

25+阅读 · 2021年6月17日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

【Yoshua Bengio新论文】多任务自监督学习语音识别，MULTI-TASK SELF-SUPERVISED LEARNING FOR ROBUST SPEECH RECOGNITION

【Yoshua Bengio新论文】多任务自监督学习语音识别，MULTI-TASK SELF-SUPERVISED LEARNING FOR ROBUST SPEECH RECOGNITION

专知会员服务

39+阅读 · 2020年1月30日

一文带你了解语音信号处理技术

一文带你了解语音信号处理技术

PaperWeekly

9+阅读 · 2022年1月26日

LeCun预言的自监督模型来了：首个多模态高性能自监督算法，语音、图像文本全部SOTA

LeCun预言的自监督模型来了：首个多模态高性能自监督算法，语音、图像文本全部SOTA

机器之心

0+阅读 · 2022年1月21日

语音合成：模拟最像人类声音的系统

语音合成：模拟最像人类声音的系统

PaperWeekly

2+阅读 · 2021年11月30日

让你在嘈杂环境听得更清晰，人工耳蜗搭载语音增强预处理技术

让你在嘈杂环境听得更清晰，人工耳蜗搭载语音增强预处理技术

TensorFlow

1+阅读 · 2021年8月26日

SFFAI分享 | 连政：端到端语音合成【附PPT与视频资料】

SFFAI分享 | 连政：端到端语音合成【附PPT与视频资料】

人工智能前沿讲习班

14+阅读 · 2019年6月16日

SFFAI分享 | 黄健：语音情感识别【附PPT与视频资料】

SFFAI分享 | 黄健：语音情感识别【附PPT与视频资料】

人工智能前沿讲习班

30+阅读 · 2019年6月11日

SFFAI 31 报名通知 | 情感语音识别与合成

SFFAI 31 报名通知 | 情感语音识别与合成

人工智能前沿讲习班

17+阅读 · 2019年5月30日

近期声学领域前沿论文(No. 3)

近期声学领域前沿论文(No. 3)

深度学习每日摘要

24+阅读 · 2019年3月31日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

一文看懂深度学习在语音合成&增强上的应用

一文看懂深度学习在语音合成&增强上的应用

数盟

11+阅读 · 2017年9月13日

基于压缩感知的单通道混合语音分离理论及算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

融合言语产生系统发音信息和中层鉴别性表征的说话人识别与语种识别

国家自然科学基金

1+阅读 · 2013年12月31日

面向非刚体形变的三维形状表示与分析关键技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于稀疏编码的语音特征增强方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向非平行文本的说话人个性特征转换的关键技术及应用研究

国家自然科学基金

0+阅读 · 2013年12月31日

语音信号声纹信息成分的深层表达

国家自然科学基金

0+阅读 · 2012年12月31日

基于压缩感知的鲁棒性语音情感识别研究

国家自然科学基金

3+阅读 · 2012年12月31日

基于声学矢量传感器阵列和稀疏表示的语音声源方位角估计方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

非特定人自然语音情感识别的建模方法研究

国家自然科学基金

1+阅读 · 2011年12月31日

面向自然环境下语音增强的复数域半盲分离方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

A sojourn-based approach to semi-Markov Reinforcement Learning

Arxiv

0+阅读 · 2022年4月20日

CorrGAN: Input Transformation Technique Against Natural Corruptions

Arxiv

0+阅读 · 2022年4月19日

New conforming finite element divdiv complexes in three dimensions

Arxiv

0+阅读 · 2022年4月17日

Sources of Irreproducibility in Machine Learning: A Review

Arxiv

0+阅读 · 2022年4月15日

Approximating Gradients for Differentiable Quality Diversity in Reinforcement Learning

Arxiv

0+阅读 · 2022年4月15日

Max-Margin Contrastive Learning

Max-Margin Contrastive Learning

Arxiv

18+阅读 · 2021年12月21日

Graph Structure Learning with Variational Information Bottleneck

Arxiv

11+阅读 · 2021年12月16日

Deep Learning for Weakly-Supervised Object Detection and Object Localization: A Survey

Deep Learning for Weakly-Supervised Object Detection and Object Localization: A Survey

Arxiv

16+阅读 · 2021年5月26日

Image-to-Image Retrieval by Learning Similarity between Scene Graphs

Arxiv

21+阅读 · 2020年12月29日

Weakly Supervised One-Shot Detection with Attention Siamese Networks

Arxiv

14+阅读 · 2018年1月12日

阅读: 0 点赞: 0

小贴士

登录享主题订阅及个性化推荐

相关主题

马尔科夫蒙特卡洛抽样

结构化学习

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】数据驱动决策中的激励、信息与不确定性

DGP双粒度提示框架：图增强大模型助力欺诈检测

【ICCV2025】ESSENTIAL：用于视频类增量学习的情景记忆与语义记忆整合

唯快不破：大型语言模型高效架构综述

相关VIP内容

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知会员服务

91+阅读 · 2022年4月5日

神经结构搜索的研究进展综述

神经结构搜索的研究进展综述

专知会员服务

36+阅读 · 2022年1月12日

【上海交通大学陈露博士论文】认知型口语交互系统中的对话管理技术

【上海交通大学陈露博士论文】认知型口语交互系统中的对话管理技术

专知会员服务

39+阅读 · 2021年11月23日

【NeurIPS2021】利用预训练对比表示征的逆问题

专知会员服务

10+阅读 · 2021年10月17日

【ICML2021】贝叶斯结构自适应的持续学习

专知会员服务

35+阅读 · 2021年9月18日

【CMU博士论文】面向分布偏移的自然语言处理学习神经模型，148页pdf

专知会员服务

37+阅读 · 2021年9月7日

【ACL2021】Hi-Transformer：一种具有层次化和交互式特点的长文档建模结构

专知会员服务

13+阅读 · 2021年8月4日

【ICML2021】协同对抗鲁棒的迁移学习

专知会员服务

25+阅读 · 2021年6月17日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

【Yoshua Bengio新论文】多任务自监督学习语音识别，MULTI-TASK SELF-SUPERVISED LEARNING FOR ROBUST SPEECH RECOGNITION

【Yoshua Bengio新论文】多任务自监督学习语音识别，MULTI-TASK SELF-SUPERVISED LEARNING FOR ROBUST SPEECH RECOGNITION

专知会员服务

39+阅读 · 2020年1月30日

相关资讯

一文带你了解语音信号处理技术

一文带你了解语音信号处理技术

PaperWeekly

9+阅读 · 2022年1月26日

LeCun预言的自监督模型来了：首个多模态高性能自监督算法，语音、图像文本全部SOTA

LeCun预言的自监督模型来了：首个多模态高性能自监督算法，语音、图像文本全部SOTA

机器之心

0+阅读 · 2022年1月21日

语音合成：模拟最像人类声音的系统

语音合成：模拟最像人类声音的系统

PaperWeekly

2+阅读 · 2021年11月30日

让你在嘈杂环境听得更清晰，人工耳蜗搭载语音增强预处理技术

让你在嘈杂环境听得更清晰，人工耳蜗搭载语音增强预处理技术

TensorFlow

1+阅读 · 2021年8月26日

SFFAI分享 | 连政：端到端语音合成【附PPT与视频资料】

SFFAI分享 | 连政：端到端语音合成【附PPT与视频资料】

人工智能前沿讲习班

14+阅读 · 2019年6月16日

SFFAI分享 | 黄健：语音情感识别【附PPT与视频资料】

SFFAI分享 | 黄健：语音情感识别【附PPT与视频资料】

人工智能前沿讲习班

30+阅读 · 2019年6月11日

SFFAI 31 报名通知 | 情感语音识别与合成

SFFAI 31 报名通知 | 情感语音识别与合成

人工智能前沿讲习班

17+阅读 · 2019年5月30日

近期声学领域前沿论文(No. 3)

近期声学领域前沿论文(No. 3)

深度学习每日摘要

24+阅读 · 2019年3月31日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

一文看懂深度学习在语音合成&增强上的应用

一文看懂深度学习在语音合成&增强上的应用

数盟

11+阅读 · 2017年9月13日

相关基金

基于压缩感知的单通道混合语音分离理论及算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

融合言语产生系统发音信息和中层鉴别性表征的说话人识别与语种识别

国家自然科学基金

1+阅读 · 2013年12月31日

面向非刚体形变的三维形状表示与分析关键技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于稀疏编码的语音特征增强方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向非平行文本的说话人个性特征转换的关键技术及应用研究

国家自然科学基金

0+阅读 · 2013年12月31日

语音信号声纹信息成分的深层表达

国家自然科学基金

0+阅读 · 2012年12月31日

基于压缩感知的鲁棒性语音情感识别研究

国家自然科学基金

3+阅读 · 2012年12月31日

基于声学矢量传感器阵列和稀疏表示的语音声源方位角估计方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

非特定人自然语音情感识别的建模方法研究

国家自然科学基金

1+阅读 · 2011年12月31日

面向自然环境下语音增强的复数域半盲分离方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

A sojourn-based approach to semi-Markov Reinforcement Learning

Arxiv

0+阅读 · 2022年4月20日

CorrGAN: Input Transformation Technique Against Natural Corruptions

Arxiv

0+阅读 · 2022年4月19日

New conforming finite element divdiv complexes in three dimensions

Arxiv

0+阅读 · 2022年4月17日

Sources of Irreproducibility in Machine Learning: A Review

Arxiv

0+阅读 · 2022年4月15日

Approximating Gradients for Differentiable Quality Diversity in Reinforcement Learning

Arxiv

0+阅读 · 2022年4月15日

Max-Margin Contrastive Learning

Max-Margin Contrastive Learning

Arxiv

18+阅读 · 2021年12月21日

Graph Structure Learning with Variational Information Bottleneck

Arxiv

11+阅读 · 2021年12月16日

Deep Learning for Weakly-Supervised Object Detection and Object Localization: A Survey

Deep Learning for Weakly-Supervised Object Detection and Object Localization: A Survey

Arxiv

16+阅读 · 2021年5月26日

Image-to-Image Retrieval by Learning Similarity between Scene Graphs

Arxiv

21+阅读 · 2020年12月29日

Weakly Supervised One-Shot Detection with Attention Siamese Networks

Arxiv

14+阅读 · 2018年1月12日

微信扫码咨询专知VIP会员