自动语音识别(ASR)涉及将录制的语音自动转录为文本的模型、算法和系统。这是一个困难的问题,因为记录的语音可能是高度可变的——我们不一定知道说话者是谁,语音在哪里被记录,或者信号中是否有其他声源(如噪声或竞争的说话者)。
解决语音识别问题需要对机器学习、信号处理和声学语音学有一定的了解。在本课程中,我们将介绍所需的理论背景,以及如何将理论转化为有用的语音识别系统。实验课程和课程将使用开源的OpenFst工具包以及Python和后来的Kaldi来构建和运行语音识别系统。