多喝点水，语音的“货”超级干

2018 年 1 月 25 日 七月在线实验室

　　在过去的30年里，语音识别系统经历了两个时代。从80年代末到2010年左右，语音识别系统大多基于高斯混合模型（GMM）和隐马尔可夫模型（HMM）；在最近的10年，这个框架被新兴的神经网络所取代。

　　本周末（1月27日、28日），七月在线特邀王赟老师讲解【语音识别技术的前世今生】。王赟，美国卡内基梅隆大学（CMU）计算机学院语言技术研究所（LTI）博士。曾在清华电子系专业课排名第一，后在Facebook语言技术组实习，现在CMU专攻语音识别。在本次课程中，王赟老师会带领大家从零开始，了解语音识别系统的各个模块，体验它们更新换代的过程。　　

　　我们的旅程从最简单的孤立词识别系统开始。在这里，你会学习如何从复杂多变的语音信号中提取出对语音识别系统有用的特征，如何用GMM描述单词各部分的发音，以及如何用HMM描述这些部分之间的转移关系。一个孤立词识别系统，就可以识别「开机」「关机」「前进」「转弯」等简单的命令了。

　　实用的语音识别系统，要处理大词汇量、连续的语音。大词汇量要求更细致的建模单位。在孤立词识别系统中，每个HMM代表一个单词；在大词汇量系统中，每个HMM代表一个音素。连续语音识别还要求有一个语言模型，来刻画怎样的单词序列连起来更像一句正常的话。

　　从90年代末至2010年，语音识别系统的框架没有变化，但识别性能却芝麻开花节节高。原来，在这个期间，人们给语音识别系统的基本框架打了各种各样的补丁。这些补丁虽然提高了系统的性能，但也让系统变得复杂而难以驾驭。天下大势，分久必合，终于神经网络横空出世，收拾了GMM + HMM系统的残局。

　　神经网络是由一层层的神经元堆叠起来形成的、复杂的函数。它的功能十分灵活，理论上几乎可以解决一切机器学习问题；尤其是循环神经网络的结构，十分适合处理语音这种序列型数据。在上个世纪，由于数据量和计算能力的限制，神经网络的研究一直处于寒冬；到了现在，大数据和GPU的出现终于解锁了神经网络的潜力。本课中，老师将向大家展示神经网络如何一步一步地蚕食掉了GMM + HMM框架的每一个模块，形成所谓的“端到端”模型——即只用一个神经网络完成传统系统中所有模块的功能。

　　目前语音识别技术的前沿，是CTC、transducer、注意力三种网络结构，它们各有优劣，尚未分出明确的胜负。语音识别同样也有很多待解决的问题，例如噪声和口音往往会让识别结果惨不忍睹。本次课程就将带领大家来到这一前沿，展望未来的发展方向。

　　有这么多干货，小编可是非常心动啊！更重要的是，这么超值的课程，线上直播竟然只需199元（现在团购是99元），还提供1年的回放，以及学员群的交流和答疑服务！可以让时间紧张的小伙伴有充足的复习时间。

　　悄悄告诉大家，课程这周末就开始了，有些事情错过了，就永远错过了。起码，直播间里跟老师的实时对话，以后永远不会有了。

　　扫码下方图片二维码进入报名通道！

语音识别技术的前世今生！

登录查看更多

相关内容

隐马尔可夫模型

关注 342

隐马尔可夫模型（Hidden Markov Model，HMM）是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析，例如模式识别。其是在被建模的系统被认为是一个马尔可夫过程与未观测到的（隐藏的）的状态的统计马尔可夫模型。

【DeepMind硬核课】深度学习注意力与记忆机制，附70页ppt与视频

专知会员服务

172+阅读 · 2020年6月25日

【InterSpeech2020】混合语音识别系统中的词汇扩展技术，Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems

专知会员服务

17+阅读 · 2020年3月23日

CMU-卡内基梅隆大学2020《神经网络自然语言处理》课程课件全集，不可错过！

专知会员服务

68+阅读 · 2020年3月20日

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

专知会员服务

51+阅读 · 2020年2月16日