语音合成:模拟最像人类声音的系统

2021 年 11 月 30 日 PaperWeekly

近年来随着深度学习技术的不断发展,语音合成技术也取得了突破性进展,也成为了很多设备的标配。比如siri通过手机跟我们讲冷笑话,车载音箱实时播报汽车的行进路线等等无不用到语音合成。
并且,深度神经网络在语音合成模型与声码器中的应用,使得端到端语音合成系统得到飞速进展。序列到序列(seq2seq)模型框架简洁,无需帧级对齐,声学时长联合建模,避免级联误差,也无需复杂文本特征。Google在2017年提出了一种新的端到端的语音合成系统Tacotron,借助深度学习模型的强表达能力,表现出惊人的合成效果。

目前国内的语音合成技术趋于成熟,但是企业对语音合成候选人的要求也极高。语音技术相较于AI其他方向而言,具有典型的跨学科特点。除了声学、语音语言学、信号处理等,还要会编程语言,并且要对常见的深度学习模型有深入了解,以及对语音合成本身的Tacotron、WaveNet等系统异常熟悉。内容涉及的越广泛,大家学习周期也就越长,企业的人才缺口也会相应的增加。

并且语音合成算法工程师的薪资也极为可观,基本是30k/月起步。(是不是很心动!)

而国内高校并没有培养对应人才的学习机制,并且,真正想学习的同学,在网络上都很难搜索到系统地学习语音合成的相关资料,更别说还需要相关项目来动手实践了,终究是“巧妇难为无米之炊”。
深蓝学院特邀西北工业大学教授、博导谢磊团队讲授《语音合成:基础与前沿》课程,既讲解传统语音合成算法(帧级+信号声码器),而且讲解端到端语音合成进阶算法,最后带大家实现语音合成应用,如风格化语音合成、多说话人建模与说话人自适应技术。

1.讲师团队介绍

左右滑动查看更多

2. 实践项目

0 1

实现基于CRF的分词

学习如何使用CRF实现中文分词,了解CRF的数据格式、训练流程以及测试客观指标。通过该实践能够快速搭建一套分词系统。
0 2

World vocoder参数提取与合成

基于World vocoder实现参数的提取与合成,旨在了解传统语音声码器中各个参数,包括基频、频谱包络以及非周期信号。同时尝试使用这些特征还原语音,并且对比各种采样率下的不同还原效果。
0 3

基于LSTM/GRU的声学与时长模型

在此实践中,我们将基于Tensorflow实现递归神经网络LTSM/GRU的语音合成时长与声学模型。从而将设计好的文本特征经过时长和声学模型,合成语音。

0 4

实现基于Tacotron的声学模型

基于Tensorflow构建Tacotron模型,包括特征处理、模型训练和解码等。旨在了解Tacotron各个模块的细节,以及如何基于注意力机制构建序列到序列声学模型。
0 5

实现基于LSA的注意力机制

基于Tensorflow实现Location-sensitive attention (LSA)机制。旨在进一步了解注意力机制的基础原理以及使用方法,并尝试寻找更符合语音特点的注意力机制。
0 6

实现基于Mel特征的WaveRNN

基于Tensorflow实现基于Mel特征的WaveRNN神经声码器,从而将谱特征转换为真实语音波形。同时可以考虑对原始模型进行扩展或改进以提高训练速度。

3. 课程亮点

1.本课程全面覆盖当前主流算法和模型,学习省时省力;

2.授课团队为国内知名的语音团队——西北工业大学谢磊团队;

3.理论与实践相结合。每章节课程后的都会配有相应的作业,助教1V1批改;

4.班主任带班。督促学习(告别拖延~);

5.超优质的学习圈子。学习本课程的同学来自超牛的学校与企业。

4. 课程收获

1.掌握传统语音合成系统中文本正则化、分词、注音、韵律预测等前端子模块的作用以及基于BLSTM+CRF的方法;

2.掌握传统语音合成系统中主流后端算法,包括基于HMM/NN的统计参数模型,以及基于单元拼接的方法;

3.领悟基于Attention的序列到序列算法的思想,掌握Tacotron模型的细节;

4.深入了解更适合语音任务的Attention机制及其应用;

5.熟悉基于WaveNet的神经网络声码器以及WaveRNN和LPCNet声码器的原理。

咨询更多

扫码添加深蓝学院-叶子

备注130,才会通过好友哦!

咨询课程可免费领取试听课哦~

登录查看更多
2

相关内容

语音合成(Speech Synthesis),也称为文语转换(Text-to-Speech, TTS,它是将任意的输入文本转换成自然流畅的语音输出。语音合成涉及到人工智能、心理学、声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域中的一项前沿技术。 随着计算机技术的不断提高,语音合成技术从早期的共振峰合成,逐步发展为波形拼接合成和统计参数语音合成,再发展到混合语音合成;合成语音的质量、自然度已经得到明显提高,基本能满足一些特定场合的应用需求。目前,语音合成技术在银行、医院等的信息播报系统、汽车导航系统、自动应答呼叫中心等都有广泛应用,取得了巨大的经济效益。 另外,随着智能手机、MP3、PDA 等与我们生活密切相关的媒介的大量涌现,语音合成的应用也在逐渐向娱乐、语音教学、康复治疗等领域深入。可以说语音合成正在影响着人们生活的方方面面。
多语言语音识别声学模型建模方法最新进展
专知会员服务
34+阅读 · 2022年2月7日
专知会员服务
30+阅读 · 2021年8月16日
专知会员服务
49+阅读 · 2021年6月3日
专知会员服务
54+阅读 · 2021年6月2日
专知会员服务
72+阅读 · 2021年5月21日
专知会员服务
56+阅读 · 2021年4月20日
专知会员服务
33+阅读 · 2021年2月1日
最新《多任务学习》综述,39页pdf
专知会员服务
265+阅读 · 2020年7月10日
一文带你了解语音信号处理技术
PaperWeekly
9+阅读 · 2022年1月26日
SFFAI分享 | 连政:端到端语音合成【附PPT与视频资料】
人工智能前沿讲习班
14+阅读 · 2019年6月16日
开放下载!《阿里语音与信号处理技术》精选集
阿里技术
10+阅读 · 2019年6月5日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
FenceNet: Fine-grained Footwork Recognition in Fencing
Self-Driving Cars: A Survey
Arxiv
41+阅读 · 2019年1月14日
Arxiv
13+阅读 · 2018年1月20日
VIP会员
相关VIP内容
多语言语音识别声学模型建模方法最新进展
专知会员服务
34+阅读 · 2022年2月7日
专知会员服务
30+阅读 · 2021年8月16日
专知会员服务
49+阅读 · 2021年6月3日
专知会员服务
54+阅读 · 2021年6月2日
专知会员服务
72+阅读 · 2021年5月21日
专知会员服务
56+阅读 · 2021年4月20日
专知会员服务
33+阅读 · 2021年2月1日
最新《多任务学习》综述,39页pdf
专知会员服务
265+阅读 · 2020年7月10日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员