【牛津博士论文】序列机器学习的应用与方法论，137页pdf

在机器学习领域，一个迅速兴起的趋势是围绕一套有限的方法进行整合，这些方法旨在提高可扩展性、多功能性和简便性。序列模型的兴起是由于这些优先级而驱动的最显著的架构转变之一。这些模型的流行增长——以及对更大模型往往在任务表现上更佳以及全新能力的认识——促使了对支持大规模训练系统的巨额投资。这些易于使用且可扩展的序列模型工具包，使得机器学习研究社区能够快速进行实验，并催生了新的序列模型实例，这些模型不仅应用于语言领域，还扩展到视觉、音频、图形结构数据和表格数据等领域。除了对系统和基础设施的投资外，还投资于收集和整理大规模序列数据集的方法。在数据的规模和清洁度上，也观察到规模对任务表现和能力有积极影响的相似现象。实现近年来进步的关键在于追求回答两个问题：

我们如何扩大我们的模型规模？
我们如何扩大我们的数据规模？

这篇论文贡献了新方法用于扩展序列模型及其数据，并追求将其应用于常规网络文本设置之外的领域。它包括以下八项工作，其中四项已经发表：

第三章 - 使用目标性丢弃学习稀疏网络
第四章 - 在低秩子空间中训练神经网络
第五章 - SliceOut：一种高效的丢弃替代方法
第六章 - 异步可逆组件网络
第七章 - 互锁反向传播（JMLR，2022）
第八章 - 应用于表格数据的转换器之间示例注意力（NeurIPS，2021）
第九章 - 针对可学习、值得学习且尚未学习的点的优先级训练（ICML，2022）
第十章 - 使用进化数据的深度生成模型预测疾病变异（Nature，2021）

章节的结构是这样的，我们首先介绍专注于提高训练和服务效率的方法以支持模型扩展（第3-7章），然后以专注于数据效率和新数据领域的方法结束以支持数据扩展（第8-10章）。大多数章节都是完全独立的，并引入了独立的技术，然而第六章和第七章是连续撰写的，前者启发了后者的开发，这在前者的结论和后者的引言中进行了讨论。这一系列工作的意图是通过提供一系列方法，加速引人入胜且连贯的人工智能的发展速度，这些方法可以被利用来使模型和数据的扩展更快、更有效。

成为VIP会员查看完整内容

相关内容

博士论文

关注 95

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【博士论文】图神经网络算法推理，135页pdf

专知会员服务

39+阅读 · 2月23日

【慕尼黑大学博士论文】可解释自动化机器学习，200页pdf

专知会员服务

36+阅读 · 2023年12月17日

【华盛顿大学博士论文】透明机器学习：理论与计算，521页pdf

专知会员服务

73+阅读 · 2023年10月23日

【斯坦福博士论文】以数据为中心的机器学习的理论和算法，209页pdf

专知会员服务

52+阅读 · 2023年9月10日