机器学习(ML)通过其近期前所未有的进步正在改变社会。自回归模型的普及正在重塑社会的各个层面,从专业领域到学术追求,甚至休闲活动。智能AI系统的一个核心方面是它们处理和理解长时间的时间信息流,如文本、音频或视频数据的能力。在这篇论文中,我们深入探讨了学习数据中长期依赖性的问题,从两个主要角度来解决它:模型架构和学习算法。与其致力于在当代基准分数上获得边际改进,这些分数通常更依赖于工程优化,本论文的重点是深入理解潜在的时间机制,探索替代学习算法,并为未来在计算效率方面的改进提供基础。
在第一章中,我们提出了一种新方法,将众所周知的ML模型之一,循环神经网络(RNN)的多个实例互联。我们提出的实证证据表明,模型架构的修改在系统组件内引发不同的时间行为。这一发现可以被利用来区分长期依赖性和短期依赖性,为使用专门为每个设计的架构铺平了道路。
第二章聚焦于在线学习算法,这种方法显著偏离了用于训练时间ML模型的传统方法。这些算法在观察到每个输入后立即更新其参数,与更常用的方法形成对比,后者必须观察整个输入序列才能更新模型参数。我们研究了实时循环学习(RTRL)在众所周知的RNN模型中的表现,并提出了一种数学上合理的近似方法。这种新方法提供了更好的近似,尽管它只与某些架构兼容。
在最后一章中,我们同时从这两个方面应对学习长期依赖性的挑战。我们提出了一种分层架构,能够通过将其分解为更小的自包含子序列来处理扩展序列。与这种架构一起,我们提出了一种学习算法,使得在抽象空间中的学习成为可能,从而绕过了专注于短期序列细节的需求。这种架构和算法的结合导致了计算效率的显著提高。重要的是,我们的方法不仅增强了当前模型的能力,而且还为未来模型架构和学习算法的共同设计开辟了令人兴奋的途径。