【斯坦福博士论文】硬件感知的高效机器学习算法，215页pdf

机器学习（ML）的训练将继续增长，消耗更多的计算周期，其推断将在更多种类的设备上扩展，而且其功能将在更多的领域中得到应用。未来的一些核心目标是使ML模型高效，从而使其保持实用性并能够被训练和部署，并开启具有新功能的新应用领域。我们描述了一些针对硬件的算法的最新发展，以提高ML模型的效率与质量之间的权衡，并为它们装备长时间的上下文信息。

https://searchworks.stanford.edu/view/14784052

在第2章中，我们关注结构化稀疏性，这是一种自然的方法来减轻大型ML模型的计算和内存成本。我们描述了一种关于可学习的快速变换的工作，由于它们的表现能力和效率，产生了一些首批稀疏训练方法，可以在实际计时（2×）中加速大型模型而不影响其质量。

在第3章中，我们关注长序列的高效Transformer训练和推断。我们描述了FlashAttention，一种快速且内存高效的算法，用于计算注意力而无需近似。通过在不同层次的内存结构之间仔细地读/写计算，FlashAttention比现有最好的注意力实现快2-4倍，使用的内存少10-20倍，使我们能够训练具有8倍更长上下文的更高质量的Transformers。FlashAttention现在广泛用于一些最大的研究实验室和公司。

在第4章中，我们研究了状态空间模型，这是一种为长期记忆设计的有前途的架构。当我们试图理解为什么早期的状态空间模型在语言建模任务上表现不佳时，我们提出了简单的乘法交互来扩展它们的表现能力。我们还设计了对硬件友好的算法来训练它们。结果，我们能够训练达到千亿参数规模的状态空间模型，展示了一种与语言建模中占主导地位的Transformers竞争的新型模型。我们总结了ML和系统中的一些令人兴奋的方向，如软硬件协同设计、用于科学AI的结构化稀疏性以及用于新AI工作流程和模态的长上下文。

成为VIP会员查看完整内容

相关内容

斯坦福大学 (Stanford University)

关注 75

斯坦福大学（StanfordUniversity）位于加利福尼亚州，临近旧金山，占地35平方公里，是美国面积第二大的大学。它被公认为世界上最杰出的大学之一，相比美国东部的常春藤盟校，特别是哈佛大学、耶鲁大学，斯坦福大学虽然历史较短，但无论是学术水准还是其他方面都能与常春藤名校相抗衡。斯坦福大学企业管理研究所和法学院在美国是数一数二的，美国最高法院的9个大法官，有6个是从斯坦福大学的法学院毕业的。

【伯克利博士论文】视觉和机器人的可扩展表示，125页pdf

专知会员服务

32+阅读 · 2023年9月27日

【伯克利博士论文】受约束的机器学习：算法与模型，153页pdf

专知会员服务

53+阅读 · 2023年8月22日

【牛津大学博士论文】高效的神经网络验证与训练，244页pdf

专知会员服务

36+阅读 · 2023年6月11日

【斯坦福博士论文】面向医学图像分析的标签高效机器学习，214页pdf

专知会员服务

57+阅读 · 2023年6月9日