题目: Deep Representation Learning in Speech Processing: Challenges, Recent Advances, and Future Trends
简介: 传统上,语音处理研究将设计人工工程声学特征(特征工程)的任务与设计有效的机器学习(ML)模型以做出预测和分类决策的任务分离为一个独立的问题。这种方法有两个主要缺点:首先,手工进行的特征工程很麻烦并且需要人类知识。其次,设计的功能可能不是最适合当前目标的。这引发了语音社区中采用表示表达学习技术的最新趋势,该趋势可以自动学习输入信号的中间表示,从而更好地适应手头的任务,从而提高性能。表示学习的重要性随着深度学习(DL)的发展而增加,在深度学习中,表示学习更有用,对人类知识的依赖性更低,这有助于分类,预测等任务。本文的主要贡献在于:通过将跨三个不同研究领域(包括自动语音识别(ASR),说话者识别(SR)和说话者情绪识别(SER))的分散研究汇总在一起,对语音表示学习的不同技术进行了最新和全面的调查。最近针对ASR,SR和SER进行了语音复习,但是,这些复习都没有集中于从语音中学习表示法,这是我们调查旨在弥补的差距。