摘要—表格数据以行和列的形式组织,是机器学习分类和回归应用中最常见的数据类型之一。用于从表格数据中学习的模型不断发展,近年来深度神经网络(DNNs)通过其表示学习能力展现出了良好的效果。在本综述中,我们系统地介绍了表格表示学习领域,涵盖了背景、挑战和基准测试,以及使用深度神经网络的优缺点。我们根据模型的泛化能力,将现有方法组织为三大类:专用模型、可迁移模型和通用模型。专用模型专注于训练和评估在同一数据分布下进行的任务。我们基于表格数据的关键方面——特征、样本和目标——提出了专用模型的层次化分类法,并深入探讨了获取高质量特征和样本级表示的详细策略。可迁移模型在一个或多个数据集上进行预训练,然后在下游任务中进行微调,利用从同质或异质来源,甚至是跨模态(如视觉和语言)中获取的知识。通用模型,也称为表格基础模型,进一步扩展了这一概念,允许在不额外微调的情况下直接应用于下游任务。我们根据跨异构数据集适应的策略,将这些通用模型进行了分类。此外,我们还探讨了集成方法,整合了多种表格模型的优势。最后,我们讨论了表格学习的代表性扩展,包括开放环境下的表格机器学习、表格数据的多模态学习和表格理解任务。更多信息请参见以下存储库:https://github.com/LAMDA-Tabular/Tabular-Survey。 关键词—表格数据、表示学习、深度表格学习、表格机器学习、表格基础模型
1 引言
表格数据,以行和列的形式组织,是现实世界中机器学习应用中最常见的数据格式之一,涵盖了金融[1]、医疗健康[2]、教育[3]、推荐系统[4]以及科学研究等多个领域。特别是,面向科学研究的人工智能(AI4science)日益依赖于表格数据,因为许多著名数据集——如基因组学[5]、化学[6]和气候科学[7][8]的数据——自然采用了表格形式。 表格数据本质上以结构化的表格格式组织信息。在本综述中,我们主要关注监督式表格机器学习任务,特别是分类和回归任务。除了结构化的组织形式外,表格数据集通常还包括异质属性[9],涵盖了数值型、分类型或混合型数据类型,这些数据可能是稠密的或稀疏的。此外,许多表格数据集还面临质量问题,如噪声测量、缺失值、异常值、不准确性[10]以及隐私约束[11],这些问题都会使建模过程变得复杂。最常见的监督式表格任务是分类和回归,其中目标分别是从训练数据学习映射到离散或连续目标。如图1所示,每一行代表一个实例(及其对应的标签),而每一列则对应特定的属性或特征[12]。理想情况下,学习到的映射应该具有良好的泛化能力,能够准确地预测从相同底层分布中抽取的新实例的结果。 用于表格数据的机器学习方法多年来经历了显著的发展[13][14][15][16]。最近,深度学习的兴起对计算机视觉[17]和自然语言处理[18]等领域产生了深远的影响,深度神经网络(DNNs)能够直接从原始输入中提取语义表示[19][20][21]。这些学习到的表示不仅提高了泛化能力,还促进了跨相关任务的知识迁移[22]。深度神经网络在建模复杂特征交互和学习丰富层次结构方面的灵活性,激发了将深度学习技术应用于表格数据的巨大兴趣。 事实上,深度神经网络在几十年前就已被应用于表格数据,最初主要针对降维和可视化任务[23][24][25][26],然而在标准的分类和回归问题中,它们通常无法与基于树的方法相匹敌。随后,深度神经网络的进展使得其在各种表格相关应用中取得了显著进展,如点击率预测[27][28]、异常检测[29]、推荐系统[30]以及时间序列预测[31][32]。现代深度学习方法得益于更精心设计的架构、优化的训练策略和高质量的表示,已使深度神经网络在表格数据上的表现得到了复兴,常常与传统的基于树的模型相抗衡甚至超越[33][34][35]。鉴于深度表格建模中涌现出的多种方法,回顾关键因素和当前的表示学习方法已成为越来越必要的任务。 本综述首先介绍表格数据学习的背景,重点突出其中的挑战,并对比深度神经网络与经典方法(特别是基于树的方法)[36][37][38][39]在使用中的优势和局限性进行批判性分析。由于观察到在不同表格数据集上方法性能的不稳定性,我们还讨论了数据集收集、评估和分析的综合策略,旨在为跨多个数据集汇总性能指标建立稳健的标准[40][41][42][43]。 我们将深度表格方法大致分为三种类型:专用方法、可迁移方法和通用方法,区分的标准包括它们训练和部署的数据集的范围,以及它们相应的泛化能力(如图2所示)。专用表格方法与经典的监督模型密切相关,通常在来自相同分布的数据上进行训练和评估。相反,可迁移方法利用从一个或多个源数据集上预训练的模型的知识,随后在目标数据集上进行微调;这里的主要挑战在于解决预训练源与目标任务之间的异质性。最近提出的通用表格方法——受到大型语言模型(LLMs)显著“零-shot”泛化能力的启发——展现出卓越的通用性。这些通用模型可以直接将其学习到的表示应用于下游表格数据集,而无需额外的微调,并通过先进的预训练策略实现稳健的泛化。 尽管从专用模型到通用模型,泛化能力通常会增强,但这并不意味着专用或可迁移方法的价值较低;专用模型在大规模数据集上仍具有优势,而对通用模型进行微调可以进一步提高其预测性能。此外,前两类方法为通用表格模型的进展提供了基础性见解和宝贵的组件。 对于专用方法,已经提出了许多从不同角度进行设计的方案,早期的文献通常根据其架构特征或行为将这些方法进行分类。现有的分类法[44],例如,将专用方法分为基于特征预处理的[33][45]、基于数据增强的[46][47][48][49]、MLP变体[50][34]、专用DNN架构[51][52][53][54][55][56][57][58]、模仿树的方法[59][60][61]、基于token的技术[62][63][33][64][65]、基于正则化的策略[66][67]、以及基于邻域的方法[68][69][35]。然而,这些分类可能显得分散,难以将位于不同组中的方法的核心思想进行联系。与此不同,本综述提出了一种基于表格数据的关键方面——特征、样本和目标——的层次化分类法,提供了一个统一的组织框架。我们的方法强调了在特征级和样本级上获取高质量表示的详细策略。这一统一视角有助于弥合不同方法之间的核心思想,促进更清晰的比较讨论,并可能指导未来更先进的表格模型的设计。