在过去的几年里,深度学习(DL)在广泛的应用领域取得了显著的进展,如蛋白质结构预测(AlphaFold [Jumper et al。2021])、文本到图像合成(DL - e [Ramesh et al。2021])、文本生成(GPT-3 [Brown等人。2020a])等。实现这些性能提升的关键策略是将DL模型扩展到非常大的规模,并对它们进行大量数据的训练。对于大多数应用程序,可训练参数的数量至少每18至24个月翻一番——语言模型以4至8个月的翻倍时间领先(Sevilla and Villalobos 2021)。大规模人工智能模型的著名例子包括:用于视觉应用的Swin Transformer-V2 [Liu等人2022a],用于语言建模的PaLM [Chowdhery等人2022],用于内容推荐的波斯[Lian等人2021],具有100万亿参数。尽管扩大DL模型正在实现前所未有的进步,但训练大型模型已经变得极其昂贵。例如,GPT-3训练成本估计为165万美元,使用谷歌v3 TPU[Lohn和Musser 2022],且transformer 模型的低效/幼稚开发将产生相当于5辆汽车终生碳足迹的二氧化碳(CO2) [Strubell等人,2019]。值得关注的是,DL仍然没有达到许多应用所要求的性能水平:例如,在现实世界中部署全自动驾驶汽车需要人类水平的性能,但还没有达到。不断增长的模型和数据规模以达到所需的性能将使当前的训练策略在金融、环境和其他方面不可持续。事实上,根据目前的趋势推断,2026年最大的人工智能模型的训练成本将超过美国的GDP总量(Lohn and Musser 2022)。此外,DL对计算的高度依赖引发了人们对财务资源有限的用户(如学者、学生和研究人员(特别是来自新兴经济体的人)的边缘化的担忧[Ahmed and Wahed 2020]。我们将在附录A中更详细地讨论这些关键问题。考虑到其计算负担的不可持续增长,DL的进步需要更多的计算效率训练方法。一个自然的方向是消除学习过程中的算法效率低下,以减少DL训练的时间、成本、能量和碳足迹。这种算法高效的深度学习方法可以通过多种方式改变训练过程,包括:改变数据或样本呈现给模型的顺序;调整模型的结构;改变优化算法。这些算法改进对于实现有效深度学习训练所需计算负担的估计下界至关重要,目前的做法导致的负担大大超过了该下界[Thompson等人,2020]。此外,这些算法增益与软件和硬件加速技术相结合[Hernandez和Brown 2020]。因此,我们相信算法高效的逻辑学习提供了一个巨大的机会来增加逻辑学习的收益并降低其成本。虽然最近涌现的算法效率论文支持了这一观点,但这些论文也表明,算法效率方法的研究和应用受到碎片化的阻碍。不同的指标被用来量化效率,这产生了不一致的加速方法的排名。评估是在狭窄或特征不佳的环境中执行的,这将导致不正确或过于宽泛的结论。在讨论算法效率方法时,缺乏反映它们的广度和关系的分类法,这使得人们很难理解如何遍历加速环境,将不同的方法结合起来并开发新的方法。因此,本文的核心贡献是组织算法效率文献(通过受[Von Rueden等人2019]启发的分类法和调研),以及对影响报告和实现加速的实际问题的技术描述(通过评估和实践指南)。我们的讨论始终强调这两个重点的关键交集:例如,算法效率方法是否会导致实际的加速确实取决于方法(通过我们的分类法可以理解)和计算平台(通过我们的从业者指南可以理解)之间的交互。我们的贡献总结如下: