本论文提出了一种使用状态空间模型的深度序列建模新方法,这是一种理论上扎实、计算上高效并在各种数据模态和应用中均取得强大结果的灵活方法。首先,我们引入了一类具有多种表现形式和属性的模型,它们概括了标准深度序列模型(如递归神经网络和卷积神经网络)的优点。然而,我们展示了计算这些模型可能具有挑战性,并开发了新类别的结构化状态空间,它们在现代硬件上非常快速,无论是扩展到长序列,还是在其他设置(如自回归推理)中。最后,我们提出了一个用于增量建模连续信号的新数学框架,它可以与状态空间模型结合,赋予它们原理性的状态表征,并提高它们建模长程依赖的能力。综合来看,这个新类别的方法为机器学习模型提供了有效和多功能的构建模块,特别是在处理大规模一般序列数据方面。
深度学习方法在机器学习和人工智能领域取得了重大进展,并在科学和工业应用中广泛成功。核心的一类模型是序列模型,这些模型是对任意序列输入进行操作的参数化映射。这些模型可以应用于各种复杂的序列数据处理任务,包括自然语言理解、语音和音频、时间序列分析,甚至可以将之视为序列的间接模态,如图像[194, 148, 18, 94, 51]。