题目:
Deep Neural Networks for Automatic Speech Processing: A Survey from Large Corpora to Limited Data
简介:
大多数语音系统都在使用深度神经网络(DNN),这些系统需要学习大量数据。因此,在资源匮乏的语音语言/问题下学习最新的框架是一项艰巨的任务。问题可能是语音受损的数据量有限。此外,获取更多的数据和专业知识既费时又昂贵。在本文中,我们将自己定位以下语音处理任务:自动语音识别,说话人识别和情感识别。为了解决数据有限的问题,我们首先研究了最先进的自动语音识别系统,因为它代表着最艰巨的任务(由于每种语言的差异性很大)。接下来,我们概述需要较少数据的技术和任务。在上一节中,我们研究了镜头不足的技巧,因为我们将资源不足的语音解释为镜头不足的问题。从这个意义上讲,我们提出了一些少拍技术的概述,以及在这项调查中针对焦点语音问题使用这种技术的观点。可能是所审查的技术不适用于大型数据集。
目录: