SampleRNN语音合成模型

2017 年 7 月 3 日 深度学习每日摘要 DLdigest

SampleRNN语音合成模型

本文参考文献

Mehri S, Kumar K, Gulrajani I, et al. SampleRNN: An unconditional end-to-end neural audio generation model[J]. arXiv preprint arXiv:1612.07837, 2016.

被引次数：10

与wavenet类似，SampleRNN同样也是基于条件概率抽样得到音频采样点的数据，如下条件概率公式所示，每个采样点的数据是由之前所有采样点数据作为条件概率抽样生成。由于语音合成的工作难点是处理长期时序关联性，因为即使只有两秒的采样频率为16kHz的音频，也要处理32000个采样点，对于更长的音频，采样点则更多，之前我们在语言建模中输入到LSTM的采样时刻到几十个已经很多了，现在要处理的是几万甚至几十万个点，难度相当大，这就是为什么语音合成的流畅度不够好的原因，时序建模的跨度非常大。

SampleRNN是一个具有启发性结构的RNN，其将不同的层归到”tiers”，每一个tier是一个循环神经网络，它的作用类似于seq2seq中的编码器，对所有输入进行编码得到一个编码后的特征向量。tier处理的时间窗大小可以人为设定，不同的tier操作着不同的时间尺度。tiers形成了启发性的结构，这意味着它可以通过多层连接实现对长程时序关系的建模。由下图可以看到，图中一共有三个tier，最下面一个tier接受最后4个样本以及中间tier的输出作为输入，中间的tier一方面为下面的tier提供输入，同时自身也接受最后4个样本以及最上面的tier的输出作为输入，最上层的tier一方面为中间层的tier提供输入，另一方面则接受最后16个样本作为输入。由此可以看出，SampleRNN是由启发性RNN和MLP构成，只有最底层的tier处理的是单个样本，越上层计算量越小，因此整体计算量较小，而wavenet则是每一层都处理的是样本级别。

除此之外，SampleRNN的抽样过程、数据离散算法都与wavenet类似，此处不再充分说明。

SampleRNN可以较好地处理语音合成这样非常长程的问题，那么将其应用到其他比较复杂的时序建模问题应该也是可行的。

题图：Crystal Liu

你可能会感兴趣的文章有：

详述DeepMind wavenet原理及其TensorFlow实现

Layer Normalization原理及其TensorFlow实现

Batch Normalization原理及其TensorFlow实现

Maxout Network原理及其TensorFlow实现

时延神经网络(TDNN)原理及其TensorFlow实现

ConvLSTM原理及其TensorFlow实现

Network-in-Network原理及其TensorFlow实现

如何基于TensorFlow实现ResNet和HighwayNet

常见的两种注意力机制

深度残差学习框架（Deep Residual Learning）

深度残差学习框架（续）

语音识别领域三十年来重要论文合集及其下载地址

推荐阅读 | 如何让TensorFlow模型运行提速36.8%

推荐阅读 | 如何让TensorFlow模型运行提速36.8%（续）

拥有1200多star的项目是什么样的心情

深度学习每日摘要｜坚持技术，追求原创

微信ID：deeplearningdigest

http://7xo6kd.com1.z0.glb.clouddn.com/upload-ueditor-image-20170227-1488176945702065881.jpg

长按二维码关注我

登录查看更多

相关内容

语音合成

关注 491

语音合成（Speech Synthesis），也称为文语转换（Text-to-Speech, TTS,它是将任意的输入文本转换成自然流畅的语音输出。语音合成涉及到人工智能、心理学、声学、语言学、数字信号处理、计算机科学等多个学科技术，是信息处理领域中的一项前沿技术。随着计算机技术的不断提高，语音合成技术从早期的共振峰合成,逐步发展为波形拼接合成和统计参数语音合成，再发展到混合语音合成；合成语音的质量、自然度已经得到明显提高，基本能满足一些特定场合的应用需求。目前，语音合成技术在银行、医院等的信息播报系统、汽车导航系统、自动应答呼叫中心等都有广泛应用，取得了巨大的经济效益。另外，随着智能手机、MP3、PDA 等与我们生活密切相关的媒介的大量涌现，语音合成的应用也在逐渐向娱乐、语音教学、康复治疗等领域深入。可以说语音合成正在影响着人们生活的方方面面。

【DeepMind深度学习课程】序列循环神经网络，141页ppt，Sequences and Recurrent Network

专知会员服务

86+阅读 · 2020年6月23日

一份循环神经网络RNNs简明教程，37页ppt

专知会员服务

173+阅读 · 2020年5月6日

【ACL2020-Google】逆向工程配置的神经文本生成模型

专知会员服务

17+阅读 · 2020年4月20日

【InterSpeech2020】混合语音识别系统中的词汇扩展技术，Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems

专知会员服务

17+阅读 · 2020年3月23日