如何对不同设置下的序列数据建模是一个跨许多领域的重要机器学习问题,包括对时间序列数据、自然语言文本和事件流的预测。不同字段中的顺序数据通常具有不同的特征。例如,自然语言文本可以被视为一个离散变量的序列,而传感器网络信号可以被视为一个连续向量空间中的多变量序列。为了在各种各样的现实世界领域中开发成功的神经网络模型,我们需要根据数据和问题的性质定制架构和算法。本文设计了新颖高效的神经网络解决方案,用于序列建模和应用。具体来说,这些贡献可以分为四部分。
第一部分重点研究了多变量序列数据中变量之间的相关性,如多传感器的时间序列,并提出了新的算法,即深度可分图卷积网络(DSGC)(第二章)[60]和分解递归神经网络(FRNN)(第三章)[63],以利用相关模式,提高预测精度。
第二部分侧重于将人类先验知识用于时序数据依赖模式的时间建模。具体地说,我们提出了一种新的方法,命名为长期和短期时间序列网络(LSTNet)(第4章)[59],它被证明是特别有效的捕获各种周期模式在不同的应用。
第三部分着重于序列分类任务中Transformers 的高效算法。具体来说,通过识别常用的Transformer架构中的计算冗余,并提出一种新的替代方案,即漏斗Transformers (第5章)[27],我们实现了更好的计算与精度之间的权衡。
第四部分侧重于事件之间时间关系的建模/预测,其中的主要挑战是从稀疏标记的数据中有效学习。我们通过结合高级数据增强、半监督学习和人类先验知识的引入来应对这一挑战(第6章)。因此,我们大大提高了这项任务的最先进性能。