语音基础模型的进展历程近几个月来,关于文本基础模型能力的讨论激增,特别是大型语言模型(LLM)。LLM以其通用处理能力而闻名,可以使用适当的指令有效地执行各种任务。与文本不同,语音包含丰富的、分层的信息,需要不同的功能来满足不同的应用。这就提出了一个问题:我们距离开发能够理解和执行任务指令的语音基础模型还有多远?本报告深入探讨了语音处理中基础模型的演变,强调了三个重要阶段:具有特定任务头的共享编码器、具有自适应参数的通用模型和任务指令模型。首先介绍了语音处理通用性能基准(SUPERB),该基准评估了跨多个任务的共享编码器。然后,讨论转移到探索语音语言模型中提示的使用。本报告最后着重介绍Dynamic SUPERB,这是一个旨在评估语音处理任务教学模型的项目。