机器学习近期的实质性进展主要源于序列模型的突破,这些模型构成了在科学应用中取得广泛成功的深度学习模型的骨干。然而,现有的方法需要对不同任务、模态和能力进行广泛的专门化;存在计算效率瓶颈;并且在对更复杂的序列数据建模时,例如涉及长期依赖性时,会遇到困难。因此,继续开发用于建模一般序列的原则性和实用的方法仍然至关重要。这篇论文开发了一种使用状态空间模型进行深度序列建模的新方法,这种方法理论上有根据,计算效率高,并在各种数据模态和应用中取得了强大的结果。首先,我们介绍了一类具有众多表示和属性的模型,这些模型概括了标准深度序列模型(如循环神经网络和卷积神经网络)的优点。然而,我们发现这些模型的计算可能具有挑战性,并开发了新的结构化状态空间类别,这些状态空间在现代硬件上非常快,无论是在扩展到长序列还是在诸如自回归推断等其他设置中。最后,我们提出了一个新的数学框架,用于增量建模连续信号,可以与状态空间模型结合,赋予它们原则性的状态表示,并提高它们对长距离依赖性的建模能力。总的来说,这新的方法类别为机器学习模型提供了有效和多功能的构建块,特别是针对大规模的通用序列数据的处理。
深度学习方法在机器学习和人工智能领域取得了显著进步,在科学和工业应用中获得了广泛的成功。序列模型是核心类别的模型,它们是作用于任意输入序列的参数化映射。这些模型可以应用于各种复杂的序列数据处理任务,包括自然语言理解、语音和音频、时间序列分析,甚至可以转化为序列的间接模态,如图像 [194, 148, 18, 94, 51]。