人类最好是通过使用同一种语言的语音进行交流。语音识别可以被定义为理解说话人所说的话的能力。
自动语音识别(ASR)是指识别人类语音并将其翻译成文本的任务。在过去的几十年里,这一研究领域得到了广泛的关注。它是人机通信的一个重要研究领域。早期的方法集中于人工特征提取和传统的技术,如高斯混合模型(GMM)、动态时间翘曲(DTW)算法和隐马尔可夫模型(HMM)。
近年来,神经网络如循环神经网络(RNN)、卷积神经网络(CNN)以及最近几年的《Transformers》已经应用于ASR,并取得了良好的性能。