以数据为中心的图机器学习

数据中心的人工智能，以其对收集、管理和利用数据以驱动AI模型和应用的主要关注点，近年来越来越受到了人们的关注。在本文中，我们进行了深入全面的综述，对当前在数据中心AI中涉及到图数据的努力提供了前瞻性的展望——图数据是表示和捕捉庞大多样实际实体间错综复杂的依赖关系的基础数据结构。我们引入了一个系统化的框架，数据中心图机器学习（DC-GML），包含了图数据生命周期的所有阶段，包括图数据的收集、探索、改进、利用和维护。我们呈现了每个阶段的详尽分类学，以回答三个关键的以图为中心的问题：（1）如何提高图数据的可用性和质量；（2）如何从有限可用性和低质量的图数据中学习；（3）如何从图数据中心的视角构建图MLOps系统。最后，我们指出了DC-GML领域的未来展望，提供了洞见，以导航其进展和应用。

随着数据的巨大增长，人工智能（AI）的进展和潜力已得到显著的探索和发展，为机器学习（ML）研究领域创造了丰富的发展机会。多年来，研究人员致力于模型中心AI的开发，这成为ML研究和应用的中心焦点。模型中心AI旨在为不同的学习任务开发专门的强大模型，假设输入数据在整齐的格式中得到良好的预处理/精炼。通过将中心焦点放在模型的提高上，精心设计的模型可以实现强大的学习性能。然而，在大多数（如果不是全部）实际应用中，数据既不是精心策划的，也不是高质量的，特别是当模型开发是一个从数据中不断学习的过程时。最近的统计数据显示，数据科学家至少花费了他们80％的时间进行数据准备。不幸的是，如图1(a)所示，在现有的以模型为中心的AI框架中，整个AI系统生命周期中准备高质量数据的重要性在很大程度上被忽视了。最近，数据中心AI正引起学术界和工业界的极大关注。与以模型为主的目标不同，数据中心AI旨在为服务和促进与模型相关的ML任务工程化具有极大可用性和质量的数据。有证据表明，仅通过提高数据质量，机器学习模型在各种任务上的性能就可以显著提高，例如，钢铁缺陷检测（从76.2％提高到93.1％）和太阳能板检查（从75.7％提高到78.7％）。图1中描绘了模型中心AI和数据中心AI之间的一般比较。如图所示，模型中心AI专注于模型设计、训练、评估、开发和部署的流程。相比之下，数据中心AI专注于数据的全面生命周期，涵盖了数据工程的各个阶段，包括数据收集、探索、改进、利用和维护。在整个过程中，直到相应的输入数据被认为是准备就绪，模型可能不会经历进一步的完善。因此，数据中心AI在处理大量混乱和嘈杂的实际数据方面发挥着重要作用，并提供了精心处理的数据，以指导模型中心AI进行强大的模型设计。

近期，两个工作坊在2021年启动，探讨和研究数据中心AI，同时进行了两项调查研究，提供了全面的数据中心AI蓝图。所有这些发展表明，人们开始注意并优先考虑数据的重要性，反映出对数据中心AI研究日益增长的兴趣。与通常从数据中心AI的广泛视角讨论一般数据类型的现有调查不同，在这项工作中，我们的目标是专注于揭开为典型数据实例化，即，图结构数据准备数据的奥秘。与其他数据类型（例如，图像和文本）相比，图结构数据由独立的边连接离散的节点，反映了其在非欧几里得空间中的独特特性（例如，稀疏性和连通性）。图结构数据的这些特性使其特别擅长表示实际世界中大量多样实体之间的复杂结构关系。图结构数据的这种卓越的表示能力突出了数据中心图机器学习在推进一般数据中心AI方面的重要作用。在这项工作中，我们将广泛探索数据中心图机器学习（DC-GML）领域，并提供全面的评论和展望，以导航其进展和应用。朝着数据中心图机器学习。将图结构数据作为中心焦点，数据中心图机器学习（DC-GML）旨在处理、分析和理解图结构数据的整个生命周期，以提高图数据的质量，发现图数据中的重要见解，开发图数据的综合表示，并与图模型中心开发协同工作，进行系统化的图机器学习操作（MLOps）流程。在这项工作中，我们提供了一个全面的分类法，概述了现有DC-GML工作的进展，并强调了DC-GML的有前景的未来前景。具体来说，我们关注向DC-GML提出的三个核心问题，这些核心问题是实现DC-GML的系统化图MLOps工作流程中不可或缺的基本组成部分。 • Q1：如何提高图数据的可用性和质量？ → (a) 图数据的改进。 • Q2：如何从有限可用和低质量的图数据中学习？ → (b) 图数据的利用。 • Q3：如何从图数据中心的视角构建图MLOps系统？ → (c) 图数据的收集，(d) 探索，和 (e) 维护。数据为中心的图机器学习（DC-GML）的重要性。在DC-GML上工作的关键作用和必要性体现在以下方面：

(1) 加强图数据理解：DC-GML探讨实际场景中复杂多样图数据的基本特征，并通过图数据可视化、图数据去噪、图数据估值等多种过程和技术，应对可能混乱和有噪声的图数据所带来的固有挑战。

(2) 更好的图学习模型性能：DC-GML提高了图数据的可用性和质量，这精确地传达了有用且有价值的信息，以及模型需要学习的清晰监督信号。这样，图学习模型就可以有效地利用高质量图数据，捕捉复杂模式并做出准确预测。

(3) 更广泛的图数据应用范围：通过全面理解图数据和有效发展图学习模型，DC-GML能够建模各种开放世界的图数据，鼓励更多的应用场景和见解，范围从日常生活个人社交网络到科学化学分子研究。(4) 标准化的图机器学习工作流：DC-GML通过涵盖整个图数据生命周期，实现了系统的图MLOps框架。它提供了一致的图数据收集、彻底的探索、持续的改进、有效的利用和高效的维护，从而有利于图数据为中心和模型为中心的发展之间的重要合作。

总之，本工作的贡献可以列举如下： • 据我们所知，这是数据为中心的AI领域中首个专注于图结构数据的调查工作。我们提供了数据为中心的图机器学习（DC-GML）的深入全面的景观和有前景的展望，预计将促进DC-GML的理解和实践，并激发未来研究的展望。 • 我们为DC-GML提供了一个系统的分类，涵盖了图数据生命周期的所有阶段。这个分类包括图数据的收集、探索、改进、利用和维护，为DC-GML提供了一个全面的框架。 • 通过图机器学习模型运作工作流（图MLOps）的视角，我们深入探讨了如何从图数据为中心的视图构建图MLOps的各个方面，同时也概述了DC-GML中的开放性挑战和有前景的未来方向。本调查的其余部分按照以下顺序组织。第2节描述了必要的初步准备、基础图神经网络背景和图机器学习的各种下游任务。然后，第3节提出了DC-GML的框架和分类，对现有的进展提供了系统的审查。接下来，第4、5和6节全面回答了DC-GML的五个关键方面内的三个核心问题。最后，第7节讨论了DC-GML中的潜在挑战和有前景的未来方向。

框架与分类

我们在图 2 中描绘了数据为中心的图机器学习（DC-GML）的提出框架和在数据为中心的图机器学习中取得的现有进展的分类。具体来说，我们主要关注与图结构数据相关的两个实际方面，即可用性和质量。可用性保证有足够的图数据可用于模型开发，没有稀缺；而质量确保图数据中没有错误或噪声。考虑到这些因素，本文主要关注的三个核心问题是： • Q1：如何提高图数据的可用性和质量？对这个问题的答案对应于第4节中的图数据改进策略，通过综合修复图数据的潜在问题来合成或修改图数据本身，以改善可用性和质量。如图 3 所示，典型的策略包括：图结构增强、图特征增强、图标签增强和图大小增强，考虑到图数据的特性，覆盖图结构、节点/边属性特征、节点/图注释标签和图数据数量。

• Q2：如何从有限可用性和低质量的图数据中学习？这个问题的答案对应于第5节中的图数据利用策略，当图数据在经历图数据改进后仍不足以进行有效的模型开发时，这些策略深入研究稀缺或低质量的图数据，充分提取、利用和整合有价值的信息到图机器学习模型中。如图 4 所示，典型的策略包括：图自监督学习、图半监督学习、图主动学习和图迁移学习。

• Q3：如何从图数据为中心的视角构建图 MLOps 系统？这个问题的答案对应于从图数据为中心的视角构建系统图 MLOps 工作流程的其他三个基本组件的策略，包括： – 图数据收集：使用众包或合成图数据，为图机器学习模型训练提供足够的监督；

– 图数据探索：明确且全面地理解、分析和管理众多和复杂的图结构数据，以便于图机器学习模型的设计； – 图数据维护：在安全和隐私管理下维护、更新和整合在服务中的图数据，用于图机器学习模型的部署。 – 图 MLOps：将所有上述关键组件和模型为中心的图机器学习组合在数据为中心的生命周期中，一起构建系统的图 MLOps 工作流程。

结论

本文进行了一项全面的审查，并为数据为中心的图机器学习（DC-GML）提供了有前景的展望。我们介绍了一个系统性的框架，其中包含了一套全面的DC-GML分类，涵盖了图数据生命周期的所有阶段，包括图数据的收集、探索、改进、利用和维护。通过本文，我们从图为中心的视角，研究了与图数据可用性和质量提升、学习以及图 MLOps 系统的构建相关的三个关键问题。另外，我们也提出了数据为中心的图机器学习的发展的令人兴奋的未来方向。预计这项工作将在DC-GML领域内，促使图数据工程和图模型开发之间形成互利共赢的合作和协同。

成为VIP会员查看完整内容