如何在各种设置中建模序列数据是跨许多领域的一个重要机器学习问题,包括对时间序列数据、自然语言文本和事件流的预测。不同领域的序列数据通常具有不同的特征。例如,自然语言文本可以看作是离散变量的序列,而传感器网络信号可以看作是连续向量空间中的多变量序列。为了在如此多的现实领域中开发成功的神经网络模型,我们需要根据数据和问题的性质定制体系结构和算法。本文针对顺序建模及其应用设计了新颖高效的神经网络解决方案。具体来说,这些贡献可以分为四个部分。 https://www.cs.cmu.edu/~glai1/
第一部分主要关注多元序列数据中变量之间的相关性,如多个传感器的时间序列,提出了利用相关模式提高预测精度的新算法,即深度可分图卷积网络(DSGC)(第2章)[60]和分解递归神经网络(FRNN)(第3章)[63]。
第二部分的重点是在时序数据依赖模式的时间建模中结合人类先验知识。具体地说,我们提出了一种新的方法,称为长短期时间序列网络(LSTNet)(第4章)[59],它被证明在不同的应用中特别有效地捕捉各种周期模式。
第三部分重点讨论了变换器Transformers在序列分类任务中的有效算法。具体来说,通过识别常用Transformer架构中的计算冗余,并提出一种新的替代方案,即漏斗Transformers(第5章)[27],我们在计算和精度之间实现了更好的权衡。
第四部分着重于建模/预测事件之间的时间关系,其中的主要挑战是有效地从稀疏标记的数据中学习。我们通过结合高级数据增强、半监督学习和引入人类先验知识来解决这一挑战(第6章)。因此,我们大大提高了这项任务的最先进性能。