【KDD2023教程】171页《以数据为中心的人工智能》研究综述全面阐述DCAI技术体系，附视频与Slides

ACM SIGKDD（国际数据挖掘与知识发现大会，KDD）会议始于 1989 年，是数据挖掘领域历史最悠久、规模最大的国际顶级学术会议，也是首个引入大数据、数据科学、预测分析、众包等概念的会议。今年的 KDD 大会是第 29 届，于 8 月 6 日 - 10 日在美国加州长滩举办。大会包含研究方向（Research ）和应用数据科学方向（Applied Data Science，ADS）两个 track。

Rice大学等再KDD2023的最新《以数据为中心的人工智能》教程，讨论了以数据为中心的人工智能的技术栈，非常值得关注！

什么是数据中心人工智能（DCAI）？ DCAI是一个新兴领域，专注于工程化数据以提高AI系统的数据质量和数量。 DCAI使我们从模型转向数据。重要的是要注意，“数据中心”与“数据驱动”在本质上有所不同，因为后者只强调使用数据来指导AI的开发，这通常仍然以开发模型为中心，而不是工程化数据。

为什么选择DCAI？许多主要的AI突破只有在我们获得正确的训练数据之后才会发生。大量、高质量的训练数据是最近GPT模型成功的驱动力，而模型架构保持相似，除了模型权重更多。当模型变得足够强大时，我们只需要工程化提示（推断数据）来达到我们的目标，而模型保持不变。

人工智能(AI)正在几乎每个领域产生深远影响。其巨大成功的一个重要促成因素是可用于构建机器学习模型的丰富和高质量数据。最近，数据在人工智能中的作用被显著放大，催生了以数据为中心的人工智能概念。研究人员和从业人员的关注焦点已逐渐从推进模型设计转向提高数据的质量和数量。**本文讨论了以数据为中心的人工智能的必要性，对三个一般的以数据为中心的目标(训练数据开发、推理数据开发和数据维护)和代表性方法进行了整体看法。**从自动化和协作的角度组织了现有的文献，讨论了挑战，并列出了各种任务的基准。我们相信这是第一个全面的综述，提供了跨数据生命周期各个阶段的任务谱的全局视图。希望它能帮助读者有效地掌握这一领域的概览，并为他们提供系统地设计数据以构建人工智能系统的技术和进一步的研究思路。以数据为中心的人工智能资源的配套列表将在https://github.com/daochenzha/data-centric-AI上定期更新。

https://www.zhuanzhi.ai/paper/f7e8a144bf863e41d303c483e386c0e6

过去的十年见证了人工智能(AI)的巨大进步，几乎在每个领域都产生了深远的影响，如自然语言处理[47]、计算机视觉[235]、推荐系统[284]、医疗保健[161]、生物学[248]、金融[175]等。这些巨大成功的一个关键促成因素是丰富和高质量的数据的可用性。许多重大的人工智能突破只有在我们获得正确的训练数据之后才会发生。例如，AlexNet[127]是第一批成功的卷积神经网络之一，它是基于ImageNet数据集[59]设计的。AlphaFold[117]是人工智能在科学发现方面的一个突破，如果没有注释的蛋白质序列[163]，将不可能实现。大型语言模型的最新进展依赖于大型文本数据进行训练34,121,187,188。除了训练数据外，精心设计的推理数据有助于对人工智能中众多关键问题的初步识别，并解锁新的模型能力。一个著名的例子是对抗样本[129]，它通过对输入数据的专门修改来混淆神经网络，这引起了人们对研究人工智能安全的兴趣激增。另一个例子是prompt engineering[146]，它仅通过调整输入数据来从模型中探测知识，同时保持模型固定(图1右侧)来完成各种任务。与此同时，数据的价值在工业界得到了广泛的认可。许多大型科技公司已经建立了基础设施来组织、理解和调试构建AI系统的数据[7,15,230,233]。在构建训练数据、推理数据和维护数据的基础设施方面的所有努力，为今天人工智能的成就铺平了道路。

**最近，数据在人工智能中的作用被显著放大，引发了新兴的以数据为中心的人工智能概念[108,109,183,250,268]。在传统的以模型为中心的AI生命周期中，研究人员和开发人员主要关注于识别更有效的模型来提高AI性能，同时保持数据基本不变。**然而，这种以模型为中心的范式忽略了潜在的质量问题和数据的不良缺陷，如缺失值、不正确的标签和异常。作为对现有模型推进工作的补充，以数据为中心的人工智能强调数据的系统工程，以构建人工智能系统，将重点从模型转移到数据。需要注意的是，"以数据为中心"与"数据驱动"有本质区别，后者只强调使用数据来指导人工智能开发，而后者通常仍以开发模型为中心，而不是工程数据。

已经有几个倡议致力于以数据为中心的人工智能运动。一个值得注意的是Ng等人[170]发起的竞赛，它要求参与者迭代数据集，只为了提高性能。Snorkel[190]构建了一个系统，可以使用启发式功能实现自动数据注释，而无需手动标记。由于许多好处，一些新兴的AI公司将数据置于中心地位，例如提高准确性，更快的部署和标准化的工作流[169,189,240]。这些跨学术界和工业界的集体行动，证明了使用以数据为中心的方法构建人工智能系统的必要性。

**随着以数据为中心的人工智能需求的不断增长，各种方法被提出。一些相关的研究课题并不新鲜。**例如，数据增强[74]已被广泛研究以提高数据多样性。为了准备更简洁的数据，特征选择[138]早在几十年前就被研究了。与此同时，最近出现了一些新的研究方向，如用于快速标记数据的数据编程[191]，用于理解模型决策的算法求助[120]，以及修改大型语言模型输入以获得理想预测的提示工程[146]。从另一个维度来看，一些工作致力于使数据处理更加自动化，如自动数据增强[56]和自动管道发现[68,132]。其他一些方法强调在创建数据时人机协作，以便模型可以与人类的意图保持一致。例如，**ChatGPT和GPT-4的显著成功[172]在很大程度上归功于从人类反馈程序[48]中进行的强化学习，它要求人类对提示提供适当的响应，并将输出进行排序作为奖励[174]。**尽管上述方法是为了不同的目的而独立开发的，但它们的共同目标是确保数据的质量、数量和可靠性，以便模型按照预期的方式运行。

在对数据为中心的人工智能的需求和所提出的众多方法的驱动下，本文从整体上介绍了数据为中心的人工智能的技术进展，并总结了现有的研究方向。具体而言，本综述围绕以下研究问题展开: * RQ1: 让AI以数据为中心的必要任务是什么? * RQ2: 为什么自动化对数据的开发和维护很重要? * RQ3: 在哪些情况下以及为什么人类参与在以数据为中心的AI中至关重要? * RQ4: 以数据为中心的人工智能目前的进展如何? 通过回答这些问题，我们做出了三个贡献。首先，提供了一个全面的概述，帮助读者从不同的角度有效地掌握以数据为中心的人工智能的概貌，包括定义、任务、算法、挑战和基准。以目标驱动的分类法组织现有文献。进一步确定每个方法中是否需要人工参与，并将方法标记为自动化水平或人工参与程度。最后，对现有研究进行了分析，并讨论了未来可能的发展机遇。

本调研的结构如下。第2节概述了与数据为中心的人工智能相关的概念和任务。详细阐述了三个以数据为中心的通用人工智能目标的需求、代表性方法和挑战，包括训练数据开发(第3节)、推理数据开发(第4节)和数据维护(第5节)。第6节总结了各种任务的基准。第7节从全局的角度讨论了以数据为中心的人工智能，并强调了潜在的未来方向。最后，我们在第8节总结了这个调研。

参考文献:

**SURVEYS & GENERAL RESOURCES

Data-centric Artificial Intelligence: A Survey * Data-centric AI: Perspectives and Challenges * Awesome Data-Centric AI Resources (GitHub)

**BLOGS

What Are the Data-Centric AI Concepts behind GPT Models? * Are Prompts Generated by Large Language Models (LLMs) Reliable? * The Data-centric AI Concepts in Segment Anything * GPT模型成功的背后用到了哪些以数据为中心的人工智能（Data-centric AI）技术 * 如何评价Meta/FAIR 最新工作Segment Anything？ * 进行data-centric的研究时，需要的算力大吗？

**TRAINING DATA DEVELOPMENT

Towards Automated Imbalanced Learning with Deep Hierarchical Reinforcement Learning [Code] * AutoVideo: An Automated Video Action Recognition System [Code] * Tods: An Automated Time Series Outlier Detection System [Code] * Revisiting Time Series Outlier Detection: Definitions and Benchmarks [Code] * Meta-AAD: Active Anomaly Detection with Deep Reinforcement Learning [Code] * Multi-Label Dataless Text Classification with Topic Modeling [Code]

成为VIP会员查看完整内容