在机器学习领域,一个迅速兴起的趋势是围绕一套有限的方法进行整合,这些方法旨在提高可扩展性、多功能性和简便性。序列模型的兴起是由于这些优先级而驱动的最显著的架构转变之一。 这些模型的流行增长——以及对更大模型往往在任务表现上更佳以及全新能力的认识——促使了对支持大规模训练系统的巨额投资。这些易于使用且可扩展的序列模型工具包,使得机器学习研究社区能够快速进行实验,并催生了新的序列模型实例,这些模型不仅应用于语言领域,还扩展到视觉、音频、图形结构数据和表格数据等领域。 除了对系统和基础设施的投资外,还投资于收集和整理大规模序列数据集的方法。在数据的规模和清洁度上,也观察到规模对任务表现和能力有积极影响的相似现象。 实现近年来进步的关键在于追求回答两个问题:
这篇论文贡献了新方法用于扩展序列模型及其数据,并追求将其应用于常规网络文本设置之外的领域。它包括以下八项工作,其中四项已经发表:
章节的结构是这样的,我们首先介绍专注于提高训练和服务效率的方法以支持模型扩展(第3-7章),然后以专注于数据效率和新数据领域的方法结束以支持数据扩展(第8-10章)。大多数章节都是完全独立的,并引入了独立的技术,然而第六章和第七章是连续撰写的,前者启发了后者的开发,这在前者的结论和后者的引言中进行了讨论。 这一系列工作的意图是通过提供一系列方法,加速引人入胜且连贯的人工智能的发展速度,这些方法可以被利用来使模型和数据的扩展更快、更有效。