面向非平行文本的说话人个性特征转换的关键技术及应用研究 - 专知基金

会员服务 ·

0

非平行文本 · 自适应聚类 · 瓶颈特征 · 变分自动编码器 · 多说话人对多说话人 ·

2013 年 12 月 31 日

面向非平行文本的说话人个性特征转换的关键技术及应用研究

国家自然科学基金

国家自然科学基金委员会

项目名称： 面向非平行文本的说话人个性特征转换的关键技术及应用研究

项目编号： No.61401227

项目类型： 青年科学基金项目

立项/批准年度： 2014

项目学科： 无线电电子学、电信技术

项目作者： 李燕萍

作者单位： 南京邮电大学

项目金额： 24万元

中文摘要： 语音转换是实现高自然度个性化语音交互的核心技术，平行训练文本的瓶颈严重限制了该技术的广泛应用，本课题针对非平行文本条件下的说话人个性特征转换的关键问题和应用进行研究。在语音信号的韵律特性方面，注重多时间尺度韵律特征的提取与参数化表示，发展层次结构式概率统计模型对其进行融合与转换，自下而上地衔接底层信号特征提取和上层语音清晰度与自然度之间的断层。在频谱特性方面，自上而下地将语音学理论和语言学信息引入到频谱特征转换模型的分析和构建中，采用拓扑方法实现转换模型从欧氏空间向拓扑空间的转变；对于无法预先采集源说话人训练文本的实际情形提出“润色”修正的思想，实现任意源说话人直接向特定目标说话人的转换。本课题首次将自上而下和自下而上的方法论相结合，指导语音信号不同特性的分析与处理，以实现非平行文本条件下的高质量的说话人个性特征转换，为语音转换技术走向实际应用提供新的理论依据和技术支撑。

中文关键词： 非平行文本；自适应聚类；瓶颈特征；变分自动编码器；多说话人对多说话人

英文摘要： Voice conversion is a key technology to achieve high degree of natural personalized voice interaction, but it was suppressed by the bottle-neck issue of requirement for parallel training data. The proposal aims to explore key technologies at the forefron

英文关键词： Nonparallel Corpora；Adaptive Clustering；Bottleneck Feature；Variational Auto-Encoders；Multi Speaker to Multi Speaker

成为VIP会员查看完整内容

0

相关内容

非平行文本

非平行文本

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

从视频到语言: 视频标题生成与描述研究综述

从视频到语言: 视频标题生成与描述研究综述

专知会员服务

21+阅读 · 2022年1月8日

【博士论文】具有文学表现力的中文古典诗歌自动写作方法研究

【博士论文】具有文学表现力的中文古典诗歌自动写作方法研究

专知会员服务

31+阅读 · 2021年12月5日

【ACL2021】Hi-Transformer：一种具有层次化和交互式特点的长文档建模结构

专知会员服务

13+阅读 · 2021年8月4日

【ICCV2021】无需检测器提取特征！LeCun团队提出MDETR：实现真正的端到端多模态推理

专知会员服务

19+阅读 · 2021年7月29日

文本情感对话系统研究综述

专知会员服务

74+阅读 · 2021年5月21日

【博士论文】面向文本生成的深度序列模型研究

专知会员服务

56+阅读 · 2020年12月20日

【博士论文】辨识性特征学习及在细粒度分析中的应用

【博士论文】辨识性特征学习及在细粒度分析中的应用

专知会员服务

31+阅读 · 2020年12月10日

面向知识图谱的信息抽取

专知会员服务

200+阅读 · 2020年10月14日

【字节跳动&Adobe】图割多模态风格迁移，Multimodal Style Transfer via Graph Cuts

【字节跳动&Adobe】图割多模态风格迁移，Multimodal Style Transfer via Graph Cuts

专知会员服务

15+阅读 · 2020年1月9日

语音合成：模拟最像人类声音的系统

语音合成：模拟最像人类声音的系统

PaperWeekly

2+阅读 · 2021年11月30日

论文浅尝 | Wordly Wise(WoW) - 用于语音视觉知识问答的跨语言知识融合模型

论文浅尝 | Wordly Wise(WoW) - 用于语音视觉知识问答的跨语言知识融合模型

开放知识图谱

0+阅读 · 2021年11月27日

Translatotron 2：高质量、稳健、负责任的语音转语音直接翻译

Translatotron 2：高质量、稳健、负责任的语音转语音直接翻译

TensorFlow

1+阅读 · 2021年10月25日

最新综述：跨语言语音合成方法的发展趋势与方向

最新综述：跨语言语音合成方法的发展趋势与方向

PaperWeekly

1+阅读 · 2021年10月8日

为语言障碍人士重现自然语音

为语言障碍人士重现自然语音

TensorFlow

0+阅读 · 2021年9月28日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知

26+阅读 · 2020年7月26日

Interspeech 2019 | 基于多模态对齐的语音情感识别

Interspeech 2019 | 基于多模态对齐的语音情感识别

AI科技评论

23+阅读 · 2019年9月21日

SFFAI分享 | 连政：端到端语音合成【附PPT与视频资料】

SFFAI分享 | 连政：端到端语音合成【附PPT与视频资料】

人工智能前沿讲习班

14+阅读 · 2019年6月16日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

一文看懂深度学习在语音合成&增强上的应用

一文看懂深度学习在语音合成&增强上的应用

数盟

11+阅读 · 2017年9月13日

面向语音表示及分离的结构化深度学习研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于内在与潜在语义特征的声音段落级语义识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于压缩感知的单通道混合语音分离理论及算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于稀疏编码的语音特征增强方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向文本信息安全的类别语义模型分类方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

融合语音产生机理与统计声学建模的层次化语音合成方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于结构化统计声学模型的非平行语料非联合训练说话人语音转换研究

国家自然科学基金

0+阅读 · 2012年12月31日

非特定人自然语音情感识别的建模方法研究

国家自然科学基金

1+阅读 · 2011年12月31日

面向新疆少数民族汉语语言学习的自动发音错误检测方法的研究

国家自然科学基金

1+阅读 · 2009年12月31日

汉语文语转换中语义与表现力联合建模

国家自然科学基金

0+阅读 · 2008年12月31日

A Corpus for Understanding and Generating Moral Stories

A Corpus for Understanding and Generating Moral Stories

Arxiv

1+阅读 · 2022年4月20日

Inference for Cluster Randomized Experiments with Non-ignorable Cluster Sizes

Inference for Cluster Randomized Experiments with Non-ignorable Cluster Sizes

Arxiv

0+阅读 · 2022年4月18日

GNN-encoder: Learning a Dual-encoder Architecture via Graph Neural Networks for Passage Retrieval

GNN-encoder: Learning a Dual-encoder Architecture via Graph Neural Networks for Passage Retrieval

Arxiv

0+阅读 · 2022年4月18日

TVShowGuess: Character Comprehension in Stories as Speaker Guessing

Arxiv

0+阅读 · 2022年4月16日

Unconditional Image-Text Pair Generation with Multimodal Cross Quantizer

Arxiv

0+阅读 · 2022年4月15日

Improving Passage Retrieval with Zero-Shot Question Generation

Arxiv

0+阅读 · 2022年4月15日

Stretching Sentence-pair NLI Models to Reason over Long Documents and Clusters

Stretching Sentence-pair NLI Models to Reason over Long Documents and Clusters

Arxiv

0+阅读 · 2022年4月15日

Constructing Open Cloze Tests Using Generation and Discrimination Capabilities of Transformers

Arxiv

0+阅读 · 2022年4月14日

Poolingformer: Long Document Modeling with Pooling Attention

Arxiv

14+阅读 · 2021年5月10日

Multimodal Sentiment Analysis To Explore the Structure of Emotions

Arxiv

19+阅读 · 2018年5月25日

阅读: 0 点赞: 0

小贴士

登录享主题订阅及个性化推荐

相关主题

非平行文本

自适应聚类

变分自动编码器

多说话人对多说话人

热门VIP内容

开通专知VIP会员享更多权益服务

【牛津博士论文】零样本强化学习综述

《美军条令：陆军指挥官与规划人员地理空间指南》60页

战术边缘指挥控制：防务面临的核心挑战

迈向开放世界检测：综述

相关VIP内容

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

从视频到语言: 视频标题生成与描述研究综述

从视频到语言: 视频标题生成与描述研究综述

专知会员服务

21+阅读 · 2022年1月8日

【博士论文】具有文学表现力的中文古典诗歌自动写作方法研究

【博士论文】具有文学表现力的中文古典诗歌自动写作方法研究

专知会员服务

31+阅读 · 2021年12月5日

【ACL2021】Hi-Transformer：一种具有层次化和交互式特点的长文档建模结构

专知会员服务

13+阅读 · 2021年8月4日

【ICCV2021】无需检测器提取特征！LeCun团队提出MDETR：实现真正的端到端多模态推理

专知会员服务

19+阅读 · 2021年7月29日

文本情感对话系统研究综述

专知会员服务

74+阅读 · 2021年5月21日

【博士论文】面向文本生成的深度序列模型研究

专知会员服务

56+阅读 · 2020年12月20日

【博士论文】辨识性特征学习及在细粒度分析中的应用

【博士论文】辨识性特征学习及在细粒度分析中的应用

专知会员服务

31+阅读 · 2020年12月10日

面向知识图谱的信息抽取

专知会员服务

200+阅读 · 2020年10月14日

【字节跳动&Adobe】图割多模态风格迁移，Multimodal Style Transfer via Graph Cuts

【字节跳动&Adobe】图割多模态风格迁移，Multimodal Style Transfer via Graph Cuts

专知会员服务

15+阅读 · 2020年1月9日

相关资讯

语音合成：模拟最像人类声音的系统

语音合成：模拟最像人类声音的系统

PaperWeekly

2+阅读 · 2021年11月30日

论文浅尝 | Wordly Wise(WoW) - 用于语音视觉知识问答的跨语言知识融合模型

论文浅尝 | Wordly Wise(WoW) - 用于语音视觉知识问答的跨语言知识融合模型

开放知识图谱

0+阅读 · 2021年11月27日

Translatotron 2：高质量、稳健、负责任的语音转语音直接翻译

Translatotron 2：高质量、稳健、负责任的语音转语音直接翻译

TensorFlow

1+阅读 · 2021年10月25日

最新综述：跨语言语音合成方法的发展趋势与方向

最新综述：跨语言语音合成方法的发展趋势与方向

PaperWeekly

1+阅读 · 2021年10月8日

为语言障碍人士重现自然语音

为语言障碍人士重现自然语音

TensorFlow

0+阅读 · 2021年9月28日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知

26+阅读 · 2020年7月26日

Interspeech 2019 | 基于多模态对齐的语音情感识别

Interspeech 2019 | 基于多模态对齐的语音情感识别

AI科技评论

23+阅读 · 2019年9月21日

SFFAI分享 | 连政：端到端语音合成【附PPT与视频资料】

SFFAI分享 | 连政：端到端语音合成【附PPT与视频资料】

人工智能前沿讲习班

14+阅读 · 2019年6月16日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

一文看懂深度学习在语音合成&增强上的应用

一文看懂深度学习在语音合成&增强上的应用

数盟

11+阅读 · 2017年9月13日

相关基金

面向语音表示及分离的结构化深度学习研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于内在与潜在语义特征的声音段落级语义识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于压缩感知的单通道混合语音分离理论及算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于稀疏编码的语音特征增强方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向文本信息安全的类别语义模型分类方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

融合语音产生机理与统计声学建模的层次化语音合成方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于结构化统计声学模型的非平行语料非联合训练说话人语音转换研究

国家自然科学基金

0+阅读 · 2012年12月31日

非特定人自然语音情感识别的建模方法研究

国家自然科学基金

1+阅读 · 2011年12月31日

面向新疆少数民族汉语语言学习的自动发音错误检测方法的研究

国家自然科学基金

1+阅读 · 2009年12月31日

汉语文语转换中语义与表现力联合建模

国家自然科学基金

0+阅读 · 2008年12月31日

相关论文

A Corpus for Understanding and Generating Moral Stories

A Corpus for Understanding and Generating Moral Stories

Arxiv

1+阅读 · 2022年4月20日

Inference for Cluster Randomized Experiments with Non-ignorable Cluster Sizes

Inference for Cluster Randomized Experiments with Non-ignorable Cluster Sizes

Arxiv

0+阅读 · 2022年4月18日

GNN-encoder: Learning a Dual-encoder Architecture via Graph Neural Networks for Passage Retrieval

GNN-encoder: Learning a Dual-encoder Architecture via Graph Neural Networks for Passage Retrieval

Arxiv

0+阅读 · 2022年4月18日

TVShowGuess: Character Comprehension in Stories as Speaker Guessing

Arxiv

0+阅读 · 2022年4月16日

Unconditional Image-Text Pair Generation with Multimodal Cross Quantizer

Arxiv

0+阅读 · 2022年4月15日

Improving Passage Retrieval with Zero-Shot Question Generation

Arxiv

0+阅读 · 2022年4月15日

Stretching Sentence-pair NLI Models to Reason over Long Documents and Clusters

Stretching Sentence-pair NLI Models to Reason over Long Documents and Clusters

Arxiv

0+阅读 · 2022年4月15日

Constructing Open Cloze Tests Using Generation and Discrimination Capabilities of Transformers

Arxiv

0+阅读 · 2022年4月14日

Poolingformer: Long Document Modeling with Pooling Attention

Arxiv

14+阅读 · 2021年5月10日

Multimodal Sentiment Analysis To Explore the Structure of Emotions

Arxiv

19+阅读 · 2018年5月25日

微信扫码咨询专知VIP会员