项目名称: 面向非平行文本的说话人个性特征转换的关键技术及应用研究
项目编号: No.61401227
项目类型: 青年科学基金项目
立项/批准年度: 2014
项目学科: 无线电电子学、电信技术
项目作者: 李燕萍
作者单位: 南京邮电大学
项目金额: 24万元
中文摘要: 语音转换是实现高自然度个性化语音交互的核心技术,平行训练文本的瓶颈严重限制了该技术的广泛应用,本课题针对非平行文本条件下的说话人个性特征转换的关键问题和应用进行研究。在语音信号的韵律特性方面,注重多时间尺度韵律特征的提取与参数化表示,发展层次结构式概率统计模型对其进行融合与转换,自下而上地衔接底层信号特征提取和上层语音清晰度与自然度之间的断层。在频谱特性方面,自上而下地将语音学理论和语言学信息引入到频谱特征转换模型的分析和构建中,采用拓扑方法实现转换模型从欧氏空间向拓扑空间的转变;对于无法预先采集源说话人训练文本的实际情形提出“润色”修正的思想,实现任意源说话人直接向特定目标说话人的转换。本课题首次将自上而下和自下而上的方法论相结合,指导语音信号不同特性的分析与处理,以实现非平行文本条件下的高质量的说话人个性特征转换,为语音转换技术走向实际应用提供新的理论依据和技术支撑。
中文关键词: 非平行文本;自适应聚类;瓶颈特征;变分自动编码器;多说话人对多说话人
英文摘要: Voice conversion is a key technology to achieve high degree of natural personalized voice interaction, but it was suppressed by the bottle-neck issue of requirement for parallel training data. The proposal aims to explore key technologies at the forefron
英文关键词: Nonparallel Corpora;Adaptive Clustering;Bottleneck Feature;Variational Auto-Encoders;Multi Speaker to Multi Speaker