本论文通过创新性贡献,推动了序列建模技术的发展,架起了状态空间模型与深度学习之间的桥梁。序列建模技术能够识别有序数据中的模式和关系,广泛应用于时间序列预测、语音和音频信号处理、文本生成、生物序列建模和神经记录分析等多个领域。尽管深度学习已经改变了序列建模的格局,但当前的架构在计算效率、建模能力和可解释性之间面临着基本的权衡。我们通过三项互补的贡献,解决了这些挑战。 首先,我们提出了 S5 层,它重新设计了深度状态空间方法,以支持并行扫描操作。我们通过与先前方法的数学联系,解释了其强大的实验性能。接着,我们将这些洞察扩展到时空建模领域,提出了 ConvS5,将空间结构整合到状态空间框架中。最后,我们通过雅可比切换线性动力系统(JSLDS)过程,开发了新的分析工具,为将复杂的非线性动力学分解为可解释的线性成分提供了系统化的方法。 通过在多个领域的广泛实验证明,我们展示了这些方法如何在各自领域显著推进了当前的技术水平。综合来看,这些贡献展示了将经典动力系统方法与现代深度学习技术结合,创造出更强大、高效且具可解释性的序列模型的广泛潜力。 序列建模——即学习有序数据中的模式和关系——是科学与工程多个领域的基础任务。其应用范围从金融时间序列预测[Salinas et al., 2020]、天气模式分析[Rasp et al., 2020, Pathak et al., 2022],到语音与音频信号处理[Oord et al., 2016]、生物序列建模[Jumper et al., 2021]、神经记录分析[Pandarinath et al., 2018],以及文本[Brown et al., 2020]和视频[Ho et al., 2022]生成等。序列建模中的关键挑战在于捕捉短期模式和可能跨越数百、数千或数百万时间步的长期依赖关系。 深度学习通过用学习到的表示代替手工设计的特征和传统统计模型,已经改变了序列建模。然而,随着序列模型在规模和能力上的增长,出现了三个基本挑战:计算效率、建模精度和模型可解释性。目前的架构在这些目标之间面临显著的权衡。递归神经网络(RNNs)[Rumelhart et al., 1986, Elman, 1990]在推理效率方面表现出色,但在处理长期依赖时表现不佳,并且在训练过程中天生是顺序的。Transformer模型[ Vaswani et al., 2017]在捕捉长期模式方面表现优异,但其计算复杂度与序列长度呈二次增长。此外,随着这些模型的复杂性增加,并且被部署在关键应用中,我们对其决策过程的理解变得愈发重要。 在本论文中,我们认为深度状态空间方法——将经典动力系统理论中的状态空间模型(SSMs)与现代深度学习相结合——能够有效解决上述序列建模中的基本挑战。通过三项互补的贡献,我们展示了这种经典与现代方法的结合如何提升计算效率、建模精度和模型可解释性。 首先,我们提出了S5层[Smith et al., 2023a],它简化了深度状态空间方法,同时扩展了其能力。通过精心重新设计架构以支持并行扫描,S5在保持线性计算扩展性的同时,达到了最先进的性能,即使是在时间变化的系统中也是如此。我们与先前方法建立的数学联系解释了其有效性,并为设计提供了有原则的选择。 基于这些基础,我们提出了ConvS5[Smith et al., 2023b],以解决时空建模中的挑战。该工作展示了如何将S5背后的核心思想扩展到更复杂的领域,通过结合卷积操作处理空间结构,并将状态空间动态应用于时间建模。ConvS5在有效处理空间依赖性的同时,保持了S5的计算优势。 我们的第三项贡献从不同的角度出发,将状态空间模型作为分析工具,而不是计算构建块。雅可比切换线性动力系统(JSLDS)[Smith et al., 2021]方法展示了如何通过共同训练一个切换线性SSM和非线性RNN,提供对RNN计算机制的可解释性见解。这项工作展示了经典动力系统概念如何帮助弥合深度学习的经验成功与理论理解之间的差距。 这些贡献统一在几个共同主题下:
SSM与深度学习方法的创新整合:每种方法都展示了将经典动力系统与现代深度学习相结合的创新方式,无论是作为计算组件(S5、ConvS5)还是分析工具(JSLDS)。 * 增强的能力:前两种方法在保持高效并行计算的同时,达到了最先进的性能,而JSLDS为理解RNN动态提供了新的分析能力,同时提升了共同训练的切换SSM的能力。 * 广泛的适用性:这些方法在包括语言、语音、视频和神经数据等多个领域取得了成功,突显了我们方法的普遍性。
本论文的其余部分组织如下:第二章提供了序列建模、状态空间模型及相关架构的必要背景。第三章介绍了S5层及其在序列建模中的应用,基于我们在Smith et al. [2023a]中的工作。第四章介绍了ConvS5,并展示了其在时空建模中的有效性,基于我们在Smith et al. [2023b]中的工作。第五章发展了JSLDS框架及其应用,基于我们在Smith et al. [2021]中的工作。最后,第六章探讨了本研究的广泛影响,并概述了未来研究的有希望方向。