项目名称: 说话人识别中时变鲁棒的声纹特征研究

项目编号: No.61271389

项目类型: 面上项目

立项/批准年度: 2013

项目学科: 无线电电子学、电信技术

项目作者: 郑方

作者单位: 清华大学

项目金额: 80万元

中文摘要: 说话人识别应用广泛,对于公共安全和国防安全等都有重要的战略意义。随着时间的推移,人的声纹会发生变化,从而严重影响说话人识别的精度,这就是声纹的时变现象。本项目针对这一现象,从声纹特征入手,研究说话人识别的时变鲁棒性问题。项目拟建设一个支持深入研究声纹时变性的语音数据库。在此数据库基础上采用数据驱动的方法,参照F比率的思想,探索人类语音基于频带能量的参数和基于声道模型短管截面积比的参数在说话人个体的区分度和概率分布稳定性上的规律,研究用于说话人识别的时变鲁棒性准则的计算公式;结合发声机理和听觉机理,通过短管合并、频率弯折、幅度加权等方式修改语音特征的计算方法,得到时变鲁棒的声纹特征提取算法;研究不同声纹特征时变鲁棒性优劣的判别准则,以指导声纹特征的选取与融合;构建原型系统,对所研究的声纹特征提取算法的正确性和有效性进行验证。

中文关键词: 说话人识别;时变鲁棒性;特征提取;;

英文摘要: Speaker recognition, also known as voiceprint recognition, can be widely used in many areas and has a strategic significance for both public security and national defense security. The voiceprint of a speaker changes with time, which is called the time-varying phenomenon of voiceprint. In this project, the voiceprint features are studied to address this issue and improve the time-varying robustness of speaker recognition technologies. A voiceprint database, specific for in-depth study on the time-varying issue, will be created. By using the F-ratio idea and the data driven methodology, effects of parameters based on frequency band energies and area ratios of adjacent tubes in the vocal tract model, on discrimination of speaker-specific information and stability of its probability distribution will be explored, and furthermore, a formula to calculate the degree of time-varying robustness in speaker recognition will be proposed. Various modification methods will be tested on feature calculation including tube merging, frequency warping, and amplitude weighting, combined with the mechanism of speech production and perception of humans. Also, a criterion to determine degree of time-varying robustness in the voiceprint features level will be proposed to guide feature selection and fusion. Finally a prototype system w

英文关键词: speaker recognition;long-term speaker variability;feature extration;;

成为VIP会员查看完整内容
1

相关内容

多语言语音识别声学模型建模方法最新进展
专知会员服务
34+阅读 · 2022年2月7日
专知会员服务
37+阅读 · 2021年5月10日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
38+阅读 · 2021年4月9日
基于生理信号的情感计算研究综述
专知会员服务
62+阅读 · 2021年2月9日
专知会员服务
96+阅读 · 2021年2月6日
【ACL2020】基于图神经网络的文本分类新方法
专知会员服务
69+阅读 · 2020年7月12日
一文带你了解语音信号处理技术
PaperWeekly
9+阅读 · 2022年1月26日
语音合成:模拟最像人类声音的系统
PaperWeekly
2+阅读 · 2021年11月30日
Interspeech 2019 | 基于多模态对齐的语音情感识别
AI科技评论
23+阅读 · 2019年9月21日
SFFAI分享 | 黄健:语音情感识别【附PPT与视频资料】
人工智能前沿讲习班
30+阅读 · 2019年6月11日
python语音识别终极指南
AI100
13+阅读 · 2018年4月5日
ISI新研究:胶囊生成对抗网络
论智
18+阅读 · 2018年3月7日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
语音识别之--韩语语音识别
微信AI
15+阅读 · 2017年8月2日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月17日
Arxiv
0+阅读 · 2022年4月16日
Prefix-Free Coding for LQG Control
Arxiv
0+阅读 · 2022年4月15日
Arxiv
13+阅读 · 2021年10月22日
小贴士
相关VIP内容
多语言语音识别声学模型建模方法最新进展
专知会员服务
34+阅读 · 2022年2月7日
专知会员服务
37+阅读 · 2021年5月10日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
38+阅读 · 2021年4月9日
基于生理信号的情感计算研究综述
专知会员服务
62+阅读 · 2021年2月9日
专知会员服务
96+阅读 · 2021年2月6日
【ACL2020】基于图神经网络的文本分类新方法
专知会员服务
69+阅读 · 2020年7月12日
相关资讯
一文带你了解语音信号处理技术
PaperWeekly
9+阅读 · 2022年1月26日
语音合成:模拟最像人类声音的系统
PaperWeekly
2+阅读 · 2021年11月30日
Interspeech 2019 | 基于多模态对齐的语音情感识别
AI科技评论
23+阅读 · 2019年9月21日
SFFAI分享 | 黄健:语音情感识别【附PPT与视频资料】
人工智能前沿讲习班
30+阅读 · 2019年6月11日
python语音识别终极指南
AI100
13+阅读 · 2018年4月5日
ISI新研究:胶囊生成对抗网络
论智
18+阅读 · 2018年3月7日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
语音识别之--韩语语音识别
微信AI
15+阅读 · 2017年8月2日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员