项目名称: 基于结构化统计声学模型的非平行语料非联合训练说话人语音转换研究

项目编号: No.61271360

项目类型: 面上项目

立项/批准年度: 2013

项目学科: 无线电电子学、电信技术

项目作者: 俞一彪

作者单位: 苏州大学

项目金额: 65万元

中文摘要: 说话人语音转换在保持语义不变的前提下将源说话人的语音转换为目标说话人的语音,具有广泛的应用价值,也是当前语音处理研究领域的主要热点之一。目前,语音转换系统一般采用平行语料训练源-目标说话人联合语音模型,并由此推导语音转换公式。但是,实际应用中不仅难以得到平行语料,而且联合语音模型的训练需要语音的精确对准和大量的计算、系统扩展也相当不便。本课题旨在研究并提出一种有效的高性能非平行语料非联合训练说话人语音转换方法。主要研究内容包括:(1)说话人语音结构化统计声学模型的分析与研究;(2)说话人语音结构化统计声学模型之间的匹配与特征分布对准方法研究;(3)短时谱转换公式推导;(4)说话人语音多韵律模型与转换控制研究;(5)语音转换性能的主观与客观评价。

中文关键词: 语音转换;非平行语料;结构化高斯混合模型;全局声学结构;约束期望最大化

英文摘要: Voice conversion means convert speech of source speaker to that of target speaker. As one of the hotest research topics in speech processing, it is very significant for various applications. The most of current voice conversion system need parallel speech corpus of both source and target speaker for joint training of union speech model by which the transform function of spectrum is derived. But parallel corpus is quite difficult to get in practice, the joint traing of union speech model consumes much cumputational costs and make system inflexible for new users. This project focuses on research of innovative voice conversion technology without need of parallel speech corpus and joint training. The main contents are: (1) Structured statistical acoustic model of speaker vocie;(2) Matching and alignment of structured statistical acoustic model;(3) Transform function of speech spectrum;(4) Multi-prosody model and transform, control;(5) Objective and sunjective evaluation of trasform performance.

英文关键词: voice conversion;non-parallel;structured Gaussian mixture model;acoustic universal structure;constraint expectation maximaization

成为VIP会员查看完整内容
0

相关内容

多语言语音识别声学模型建模方法最新进展
专知会员服务
32+阅读 · 2022年2月7日
专知会员服务
55+阅读 · 2021年10月12日
【字节跳动-李航】一种按序列进行对话状态跟踪的方法
专知会员服务
29+阅读 · 2020年11月25日
专知会员服务
31+阅读 · 2020年9月2日
【ACL2020】多模态信息抽取,365页ppt
专知会员服务
144+阅读 · 2020年7月6日
论文浅尝 | 改善多语言KGQA的 Zero-shot 跨语言转换
开放知识图谱
0+阅读 · 2022年2月26日
SFFAI分享 | 连政:端到端语音合成【附PPT与视频资料】
人工智能前沿讲习班
14+阅读 · 2019年6月16日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
语音识别之--韩语语音识别
微信AI
15+阅读 · 2017年8月2日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月17日
小贴士
相关VIP内容
多语言语音识别声学模型建模方法最新进展
专知会员服务
32+阅读 · 2022年2月7日
专知会员服务
55+阅读 · 2021年10月12日
【字节跳动-李航】一种按序列进行对话状态跟踪的方法
专知会员服务
29+阅读 · 2020年11月25日
专知会员服务
31+阅读 · 2020年9月2日
【ACL2020】多模态信息抽取,365页ppt
专知会员服务
144+阅读 · 2020年7月6日
相关资讯
论文浅尝 | 改善多语言KGQA的 Zero-shot 跨语言转换
开放知识图谱
0+阅读 · 2022年2月26日
SFFAI分享 | 连政:端到端语音合成【附PPT与视频资料】
人工智能前沿讲习班
14+阅读 · 2019年6月16日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
语音识别之--韩语语音识别
微信AI
15+阅读 · 2017年8月2日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员