开放下载！《阿里语音与信号处理技术》精选集

2019 年 6 月 5 日 阿里技术

据说，一位阿里员工买了天猫精灵给家中老父听相声，回家一看，老父竟然把天猫精灵绑在了牛棚里？！

老父说：“放在牛棚，开灯方便，还能随时给牛听音乐。”据说听了音乐的牛，长得更肥了。

智能音箱为什么能掀起一场购买热潮？正是因为，它能听，能看，能说，能感觉，人机交互成为未来的一个趋势，而支撑这一切的正是语音技术。

不管是语音文书速记、在线购物、儿童教育或者是智能家居，它正在让生活变得更加便捷、智能以及富有趣味，甚至离不开。为了帮助更多技术人深入了解AI语音的落地实践，阿里技术发布《阿里机器智能：语音与信号处理技术精选专辑》电子书。这本书共计五篇内容，分别涵盖了语音识别、语音合成以及情感识别三个语音技术领域的重要方向。

如何免费下载？

长按识别以下二维码，关注“阿里巴巴机器智能”官方公众号，并在对话框内回复“语音”，即可免费在线阅读或下载此书。

为什么建议你阅读本书？

离开具体问题，谈方法论只能得到一堆空洞而无用的原理。只有在真实的案例中，发现问题，理清思路，解决问题，总结方法，才能将经验完美地内化，成为自我成长和专业精进的养料。本书包含五篇论文，每篇论文都提出了具体问题以及解决方法，相信能够在最短的时间内，帮助你建立语音技术框架，了解相关原理。

本书的五篇论文皆被 ICASSP2018 收录，保证了内容的优质性。ICASSP 是国际语音领域最著名、影响力最大的学术会议之一，侧重声学、语音信号以及语音建模相关的学术讨论，包含了语音技术相关的各个方面，堪称国际语音行业的一个年度盛会。

本书目录

该书有哪些精彩干货？

《基于深层前馈序列记忆网络，如何将语音合成速度提升四倍？》中，作者提出了一种基于深度前馈序列记忆网络的语音合成系统，该系统在达到与基于双向长短时记忆单元的语音合成系统一致的主观听感的同时，模型大小只有后者的四分之一，且合成速度是后者的四倍，非常适合于对内存占用和计算效率非常敏感的端上产品环境。

《为了更精确的情感识别，A-LSTM 出现了》中，作者针对 LSTM 时间依赖局限性问题，提出了高级长短期记忆网络（advanced LSTM (A-LSTM)）模型，利用线性组合，将若干时间点的本层状态都结合起来，以打破传统 LSTM 的这种局限性。在这篇文章中，我们将 A-LSTM 应用于情感识别中。实验结果显示，与应用传统 LSTM 的系统相比，应用了 A-LSTM 的系统能相对提高5.5%的识别率。

《为了让机器听懂“长篇大论”，阿里工程师构建了新模型》中，作者提出了一种改进的前馈序列记忆神经网络结构，称之为深层前馈序列记忆神经网络（DFSMN），进一步地将深层前馈序列记忆神经网络和低帧率（LFR）技术相结合构建了 LFR-DFSMN 语音识别声学模型。该模型在大词汇量的英文识别和中文识别任务上都可以取得相比于目前最流行的基于长短时记忆单元的双向循环神经网络（BLSTM）的识别系统显著的性能提升。而且 LFR-DFSMN 在训练速度，模型参数量，解码速度，而且模型的延时上相比于 BLSTM 都具有明显的优势。

《示范了200句后，我的声音“双胞胎”诞生了！》中，作者提出了基于线性网络的语音合成说话人自适应算法，该算法对每个说话人学习特定的线性网络，从而获得属于目标说话人的声学模型，通过该算法，使用 200 句目标说话人的自适应语料训练的说话人自适应系统能够获得和使用 1000 句训练的说话人相关系统相近的合成效果。

《朋友，我能分享你的喜怒吗？阿里语音情感识别框架揭秘》中，作者提出了一套包含多个子系统的复合情感识别框架。这一框架会深入挖掘输入语音中与情感相关的各个方面的信息，从而提高系统的顽健性。

近年来，语音领域的相关产品问题随之暴露和慢慢地被解决，整个语音技术已经逐渐走到了实际应用的阶段，越来越多的语音设备产品问世和火爆也说明了这一点。希望通过本书，能和学术界、工业界更多的同行共同探讨、共同进步，衷心地希望语音技术继续百家争鸣、百花齐放，早日把靠谱的语音交互能力带到各行各业、带进千家万户，真正地帮助到人们的工作和生活！

如何免费下载？

长按识别以下二维码，关注“阿里巴巴机器智能”官方公众号，并在对话框内回复“语音”，即可免费在线阅读或下载此书。