机器学习领域,特别是深度学习,由于算法、计算能力和数据集的改进,近年来取得了巨大进步。为支持深度学习而构建的系统主要针对用于生成学习模型的计算。 本论文提出改为关注数据在训练和验证中的作用。在论文的第一部分,我们关注训练数据,展示了负责训练数据的数据管道是性能考虑的首要目标。为了解决性能问题,我们引入了一种在数据转换空间中进行数据子采样的方式,一种降低精度的输入/输出格式,以及一个自动调整数据管道性能参数的系统。在论文的第二部分,由于日益增长和表达能力增强的模型的趋势,我们转向验证环境,开发了一个系统,可以使用标准正则表达式自动查询和验证大型语言模型的行为。我们以机器学习的数据系统领域的未来工作作为结论。在过去的十年里,机器学习(ML)在应用方面经历了迅猛的增长。这个领域关注的是随着数据或经验而改进的算法[201],已经从一系列专业化的应用(例如,广告[195],推荐系统[60, 106, 213],垃圾邮件检测[316])演变为应用于几乎所有技术领域。例如,深度学习应用于游戏玩法[261, 286],蛋白质折叠[143],机器人学[80],一系列自然语言处理任务[43, 55],并且预计将达到一种无处不在的程度,可能导致重大的经济颠覆[87]。在这场革命的最前沿是深度学习子领域[108, 173]。深度学习使用多层结构 - 数学操作 - 来构建模型。这些层被联合学习,以便早期层简化后续层面临的任务。虽然深度网络在理论上可能不如其他机器学习或人工智能方法那么被理解,但它们已经表明,尽管在计算上开销巨大但通用的方法最终会主导利用额外专业化的算法[268]。这种在计算上开销巨大但通用的方法已经受益于像摩尔定律[209]这样的趋势 - 硬件性能的指数级增长 - 以及硬件和软件的专业化[165, 275]。如今众多的深度学习软件使深度学习或许比其他替代方案更易于获取 - 只需获得通常是开源且随时可用的模型规范代码,就可以训练最先进的模型。深度学习技术的核心已经被商品化和民主化,使任何人都可以受益于人类多年的研究和开发。

然而,尽管使用深度学习的常规方面变得更加容易,但仍然存在一些基本问题有待解决,并影响许多应用的下游性能。对这些问题(及其相应解决方案)进行分类的一种方法是将它们分为三个领域:1)机器学习算法,2)计算能力,和3)数据。这三个领域的每一个都已经经过优化以持续推动该领域的进步,并且被列为导致深度学习兴起的关键因素[35]。例如,缺乏训练数据和计算能力被归因为深度网络在2000年初的衰退[35]。直到大约十年后,这些因素的缺乏才得以弥补,当时在2012年ImageNet大规模视觉识别挑战(ILSVRC)比赛中取得了创纪录的表现[71]。获胜的提交,AlexNet[156],是一个深度卷积神经网络(CNN),并且在图形处理单元(GPU)的帮助下接受了一百万张图像的训练。机器学习算法也有所进步,使学习更加高效。例如,ReLU激活和dropout是2012年提交[156, 173]的关键算法组件,是广泛用于加速学习的数学操作。当这些进步结合起来时,由此产生的模型以绝对误差超过了仅次于其的提交,开始了计算机视觉的革命[173]。今天在自然语言处理方面的最新趋势可以类似地视为核心算法创新[285],并扩展到大量数据和计算[43, 55],从而导致性能的可预测提升。在民主化机器学习的最前沿是机器学习系统[239]。这些系统包含并解决机器学习方法中足够公式化的部分,使从业者能够将时间集中在其他问题上。如果机器学习算法,计算能力和数据是支撑现代机器学习的支柱,那么机器学习系统就是用来将它们置于适当位置的工具。如今的系统包括用于数学表达式符号操作的功能,跨各种硬件平台的可移植性,分布式执行,以及与常用实用程序和数学表达式一起预先打包的库[11, 49, 96, 222]。

作为这篇论文的一部分,我们探讨了现代机器学习技术栈中新功能或修订功能的几个方向,重点关注整个技术栈中数据的处理。研究数据很重要,因为在三个问题领域中,数据是最具动态性的 — 数据总是可以进一步优化以涵盖更多样本、更多特征或某些类型的行为,而模型(和计算)在处理某种类型的数据时必然是固定的。此外,对数据的优化可能导致应用程序的显著增益,从而刺激数据为中心的AI研究[3]。然而,这并非轻而易举,改变数据容易说难做。由于缺乏理论理解,对于任何新类型的机器学习任务,从业者可能必须测试哪种数据组合效果最好。如果没有适当的数据抽象,任务中的单一变化可能导致从业者必须手动评估和调整应用程序数据的特征。调整数据的方面不仅是单调乏味的,而且根据数据评估模型以及系统性能的行为需要机器学习和系统的专业知识,而这些专业知识通常是由不同群体的人拥有的。如果机器学习系统的目标是支持从业者解决重复问题,那么可以合理地期望机器学习系统能够使数据的快速配置和原型制作成为可能。简而言之,数据管道应该是机器学习系统栈中的一等公民 - 它们不应该是作为附加工具支持模型和计算的事后考虑。本章其余部分的组织结构如下。首先,我们概述机器学习系统是如何构建和评估的(§1.1)。然后,我们概述机器学习中的工作负载是如何发生根本性变化的,这使得社区分裂成两个部分(§1.2),并激励对机器学习系统进行根本不同的处理。然后我们转向论文的动机,重新审视数据在当前机器学习环境中的重要性(§1.3)。最后,我们介绍论文陈述并概述本文的章节(§1.4)。熟悉当前机器学习和机器学习系统状态的读者可以跳过第1.1节和第1.2节的“教科书材料”,并直接前往第1.3节。

成为VIP会员查看完整内容
48

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【MIT博士论文】多模态:模型、算法与应用,196页pdf
专知会员服务
103+阅读 · 2023年8月17日
【CMU博士论文】高效且可扩展的表示学习,152页pdf
专知会员服务
35+阅读 · 2023年6月12日
【牛津大学博士论文】持续学习的高效机器学习,213页pdf
专知会员服务
77+阅读 · 2022年10月19日
【MIT博士论文】异构医疗数据表示学习,193页pdf
专知会员服务
53+阅读 · 2022年9月3日
专知会员服务
34+阅读 · 2021年7月19日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
134+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
327+阅读 · 2023年3月31日
Arxiv
56+阅读 · 2023年3月26日
Arxiv
115+阅读 · 2023年3月24日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员