表格数据广泛应用于医疗、金融、交通等行业,但由于其异构性和缺乏空间结构的特性,给深度学习带来了独特的挑战。本综述回顾了用于表格数据的深度学习模型的演变,从早期的全连接网络(FCN)到先进的架构,如TabNet、SAINT、TabTranSELU和MambaNet。这些模型结合了注意力机制、特征嵌入和混合架构,以应对表格数据的复杂性。TabNet通过顺序注意力机制进行逐实例的特征选择,提高了模型的可解释性;而SAINT结合了自注意力机制和样本间注意力机制,捕捉特征和数据点之间的复杂交互,从而在提高可扩展性的同时减少计算开销。混合架构如TabTransformer和FT-Transformer将注意力机制与多层感知机(MLP)结合,处理类别和数值数据,其中FT-Transformer专门为表格数据集调整了Transformer模型。研究仍在继续,以在大规模数据集上平衡性能和效率。基于图的模型如GNN4TDL和GANDALF结合了神经网络与决策树或图结构,通过先进的正则化技术增强了特征表示,并在小数据集上缓解了过拟合问题。基于扩散的模型如表格去噪扩散概率模型(TabDDPM)通过生成合成数据解决数据稀缺问题,从而提高模型的鲁棒性。同样,TabPFN和Ptab等模型利用了预训练语言模型,将迁移学习和自监督技术引入表格任务。本综述重点介绍了这些领域的关键进展,并概述了在多样化的表格数据应用中关于可扩展性、泛化性和可解释性的未来研究方向。
表格数据由表示结构化信息的行和列组成[1, 2],是许多行业中最常用的数据格式,包括医疗、金融和交通等。与图像和文本等非结构化数据不同,表格数据以结构化形式直接表示现实世界现象,这使其在风险评估、预测分析和安全监测等决策过程中至关重要。例如,在交通工程领域,表格数据在记录事故事件、车辆属性、环境因素和人类行为方面起着关键作用,帮助研究人员利用数据驱动的洞察来预测事故严重性并改善安全措施。尽管深度学习在计算机视觉和自然语言处理(NLP)等领域取得了成功,但其在表格数据中的应用并不那么直接。深度学习模型在处理表格数据时面临多个挑战:(1) 样本量小:与大规模的图像或文本数据集相比,许多表格数据集相对较小,导致复杂的深度学习模型容易发生过拟合。 (2) 高维性:表格数据通常包含许多特征,这些特征可能是稀疏的或无关的,使得模型难以识别有意义的模式。 (3) 复杂的特征交互:与局部结构突出的图像或文本不同,表格数据中的特征交互是非局部的且复杂的,因此需要更为专业的架构来有效捕捉这些关系。这些因素使得基于树的模型(如XGBoost和随机森林)在许多表格数据任务中更为有效,因为它们更适合处理稀疏特征和复杂的交互。近年来,针对表格数据的深度学习模型取得了显著进展,解决了此类数据所带来的独特挑战。尽管早期的全连接网络(FCN)显示出了一定的潜力,但随着新架构的出现,这一领域得到了显著发展[3-6]。其中领先的模型之一是FT-Transformer,该模型将最初为序列数据开发的Transformer模型适配用于表格数据,通过注意力机制编码特征[7, 8]。由于其能够学习特征之间的复杂交互,这一模型在处理高维数据时表现出色。另一个近期的创新是自注意力和样本间注意力Transformer(SAINT),它通过引入样本间注意力机制改进了原始的Transformer,使得模型能够更好地捕捉表格数据行之间的关系[9]。在多个基准测试中,SAINT相较于传统模型如XGBoost和深度学习模型如神经遗忘决策集成(NODE)表现出色。此外,TabTransformer等模型专门用于分类特征编码的Transformer,提供了一种更具可扩展性的解决方案,能够处理表格数据集中混合的数据类型。这种方法使模型能够从分类变量中捕捉有意义的表示,而这些分类变量通常是传统深度学习架构难以有效处理的。这些新模型在特征编码、复杂交互学习和模型可解释性方面引入了重要的创新,这对推动深度学习在表格数据中的应用具有重要意义。本文的目标是详细回顾这些进展,探讨其历史演变(如图1所示)、关键技术、数据集及潜在的应用方向。 表格深度学习
虽然之前的研究[7]对表格数据的深度学习进行了结构化的综述,重点关注了处理类别变量、数据转换和模型比较等挑战,但本综述采取了不同的视角,强调了该领域的历史演变和算法进展。我们着重介绍了MambaNet、SwitchTab和TP-BERTa等最新模型的开发,展示了这些架构如何演变以应对表格数据的独特复杂性。通过探讨注意力机制、混合架构以及其他近期的突破,本综述突出了深度学习模型向更高效、可扩展且可解释的解决方案的转变。与以往的工作不同,本研究不专注于模型比较,因为全面评估不同模型需要根据各种类型的表格数据进行专门的分析。 在快速发展的表格深度学习领域,每年都有新的架构设计被提出,以应对表格数据日益增长的复杂性,并带来了显著的改进。近期的模型,如HyperTab和GANDALF,推动了可扩展性和可解释性的边界,提供了处理异构特征和高维数据的增强方法。这些新架构基于基础工作,显著提升了相较于传统方法的性能改进。如图9所示,表格深度学习的演变强调了关键贡献,从2019年Semek等人[83]和Arik等人[24]的研究,到最近的最新进展,并按引用次数排列,展示了该领域研究影响力的不断增长。
在这些进展的基础上,表2展示了这一期间引入的主要模型的时间线,详细描述了它们的架构及关键性能特点。这些模型展示了表格深度学习中的重大突破,从混合架构到高级注意力机制,推动了性能和可扩展性的进步。
TabTransformer模型通过利用注意力机制和混合架构,显著推动了表格深度学习的发展,解决了表格数据带来的独特挑战[19]。TabTransformer的核心是采用了多头自注意力层,该层改编自传统用于自然语言处理(NLP)的Transformer架构,用于捕捉数据集中复杂的特征交互和依赖关系,如图10所示。这种注意力机制使模型能够有效地捕捉特征之间的关系,尤其适用于包含大量类别变量的数据集。 TabTransformer架构将Transformer层与MLP组件结合,形成了针对表格数据优化的混合结构。类别特征通过列嵌入层进行嵌入,将每个类别转换为可学习的密集表示。这些嵌入通过Transformer层传递,聚合来自其他特征的上下文信息,以捕捉相互依赖的关系。上下文化的类别特征随后与连续特征进行拼接,并通过MLP进行最终预测。这种设计利用了Transformer在类别数据上的上下文学习优势和MLP在处理连续数据上的传统优势。此外,TabTransformer还引入了掩码语言建模(MLM)和替换标记检测,使其能够在大量无标签数据上进行预训练,从而在低标签数据场景中提升性能,使其在现实世界应用中更加有效。
TabTransformer模型的最新进展,如Vyas[94]提出的自监督TabTransformer,进一步优化了该架构,通过在预训练阶段利用MLM从无标签数据中学习。这种自监督方法通过自注意力机制捕捉复杂的特征依赖性,提高了模型的泛化能力。通过将Transformer层与MLP结合用于最终预测,模型能够有效处理混合数据类型和较小的数据集。然而,虽然模型在半监督环境中表现出了显著的性能提升,但依赖于掩码语言模型预训练增加了计算开销,可能限制其可扩展性。解释性保持在中等水平,注意力得分可以提供有关特征重要性的洞察,但模型的解释性仍然不如传统模型如GBDT。
另一个显著的进展是由Cholakov和Kolev[95]提出的GatedTabTransformer,该模型通过引入门控多层感知机(MLP)增强了原始的TabTransformer。此修改通过空间门控单元提高了模型捕捉跨标记交互的能力。GatedTabTransformer在AUROC方面比标准TabTransformer的性能提升了约1个百分点,特别是在二分类任务中。然而,这也带来了额外的计算复杂性,因为空间门控单元需要额外的处理。尽管模型性能有所提升,但其可扩展性和解释性仍然较为有限,相比之下,简单的模型如MLP或GBDT则更具优势。
因此,虽然TabTransformer模型通过注意力机制和混合架构在处理表格数据方面提供了显著改进,但在性能、可扩展性和解释性方面存在权衡。近期的变体如自监督TabTransformer和GatedTabTransformer展示了这些模型相较于传统方法的潜力,尽管以更高的计算需求为代价。
由Gorishniy等人[96]提出的FT-Transformer模型,通过利用注意力机制、混合架构和基于Transformer的方法,提出了一种新颖的方式来应对表格数据的挑战。该模型将最初为NLP等任务设计的注意力机制进行了适配,以处理表格数据。在这一背景下,注意力机制使模型能够捕捉异构特征之间的复杂关系,包括数值和类别数据,如图11所示。通过使用注意力机制动态优先考虑某些特征,模型有效地建模了传统表格数据方法中常难以检测到的交互关系。
除了注意力机制,FT-Transformer还采用了一个集成特征标记化的混合架构。这个过程将数值和类别特征都转化为嵌入表示,然后通过Transformer架构层进行处理。其结果是,一个高度灵活的模型,能够处理各种类型的表格数据,这对于特征类型和分布变化多样的任务而言尤为关键。这种混合设计将传统特征编码方法与基于Transformer的强大学习能力结合起来,从而在不同的数据集上实现更好的泛化能力。
最近的研究表明,FT-Transformer在各种应用中表现出色。在心力衰竭预后领域,FT-Transformer通过捕捉医疗特征之间的非线性交互,如人口统计和临床数据,超越了传统模型如随机森林和逻辑回归的表现[97]。注意力机制的使用使模型能够动态优先处理重要的健康指标,从而得出更准确的预测。同样,在入侵检测系统中,FT-Transformer在处理网络流量数据的高度结构化特性时表现出更高的准确性,能够识别网络异常[98]。混合架构无缝地整合了类别和数值特征,提高了模型检测已知和未知威胁的能力。此外,通过堆叠多个Transformer层来增强模型捕捉数据中的长距离依赖性的能力,使其在复杂任务中更加有效[99]。虽然FT-Transformer模型在多项表格任务上相较于其他模型,如ResNet和MLP,表现出更高的性能,但也有一些权衡需要考虑。在解释性方面,模型的复杂性带来了挑战。像GBDT这样的传统模型具有更清晰的解释性,因为它们的决策过程更加透明。相比之下,FT-Transformer依赖于注意力机制和深层网络,虽然注意力分数能够提供特征重要性的某些洞察,但整体上难以解释。此外,模型的可扩展性也是一个考虑因素,特别是Transformer模型的注意力机制随特征数量呈二次增长的计算需求,可能在应用于大规模数据集时成为限制。
尽管存在这些限制,FT-Transformer能够跨不同的数据集进行泛化,使其成为表格数据分析中颇具前景的模型,带来了预测性能方面的显著进步。基于这些进展,我们展示了TabNet和FT-Transformer在性能和log-loss方面的比较。如图12所示,随着随机搜索迭代次数的增加,FT-Transformer始终表现出更优的性能,而两种模型的log-loss则以不同的速率下降。此比较突显了FT-Transformer在较大搜索空间中相较于TabNet的更强泛化能力。虽然这一图示例展示了性能差异,但与之前的表格深度学习综述[7]不同,本次研究并未对所有表格深度学习模型进行比较,因为跨多个模型和不同数据集的全面评估超出了当前综述的范围。未来的研究应着眼于更广泛的性能评估,以全面检验这些模型的优劣。
DeepGBM模型通过结合注意力机制、混合架构和知识蒸馏等先进技术,为解决表格数据在深度学习中的挑战提供了一种创新的方法[63]。尽管该模型并未显式使用传统的注意力机制,它通过GBDT(梯度提升决策树)中的特征重要性来优先考虑某些特征。此过程模仿了注意力机制,通过将模型的注意力集中在最具信息量的特征上,而不是平等对待所有输入。通过强调最相关的特征,DeepGBM增强了其处理稀疏类别数据和密集数值数据的能力,这在表格数据任务中至关重要。
最近在表格深度学习领域的进展进一步突显了DeepGBM在将神经网络与GBDT结合以提升性能方面的作用。特别是,该模型的混合架构利用了CatNN处理稀疏类别特征,通过嵌入和分解机技术进行特征处理,而GBDT2NN则将GBDT的输出转化为神经网络格式,优化了对密集数值特征的处理[100]。图13展示了DeepGBM的结构。通过这种集成,DeepGBM能够利用这两类模型的优势,克服传统方法在统一框架下处理混合特征类型的局限性。尽管DeepGBM并未直接实现基于Transformer的模型,但它采用了来自Transformer架构的思想,特别是在知识蒸馏的形式上。通过将GBDT树中获得的知识(包括预测结果、树结构和特征重要性)蒸馏到神经网络中,DeepGBM保留了GBDT的优势,同时增强了其学习能力[101]。这类似于Transformer通过蒸馏来简化复杂模型的方式,同时保持其性能。
在性能、可解释性和可扩展性之间的权衡,反映了表格深度学习中更广泛的挑战。DeepGBM通过结合GBDT和神经网络实现了更高的准确性,但牺牲了一部分可解释性,因为神经网络组件的增加降低了树模型通常具有的透明度。可扩展性也是一个挑战,因为神经网络部分需要更多的计算资源。然而,像WindTunnel这样的模型表明,这种方法可以在保持原有GBDT结构优势的同时提升准确性[101]。这些权衡需要根据应用场景进行仔细平衡,因为DeepGBM在性能和效率方面表现出色,特别是在大规模和实时应用中。
在表格深度学习的最新进展中,DANets模型利用了注意力机制、混合架构和基于Transformer的方法,以应对表格数据处理中的特定挑战。DANets的关键创新之一是使用动态特征选择过程,通过可学习的稀疏掩码[102]来识别和强调相关特征。该方法基于Entmax稀疏映射,使模型能够在网络的每个阶段有选择性地专注于最重要的特征,从而增强其从数据中提取有意义表示的能力。这种机制类似于Transformer模型中使用的注意力机制,但特别针对表格数据的不规则性和异构性进行了调整。
DANets还采用了混合架构,融合了类似于卷积神经网络(CNN)的特征分组和层次抽象过程,但进行了适配以应对表格数据的独特结构。如图14所示,引入的抽象层(ABSTLAY)使模型能够通过连续的层来分组相关特征并抽象出更高层次的表示。此外,模型还采用了捷径路径,使得原始特征可以在网络的更高层次重新引入,确保关键信息得以保留,从而增强了模型的鲁棒性,特别是在较深的架构中。这种设计类似于ResNet风格的连接,残差路径防止了深层网络中信息丢失和退化,从而提升了性能。
DANets通过使用动态加权和类似注意力机制的方式,结合了Transformer的思想,使模型在特征选择和抽象过程中能够选择性地关注重要特征。尽管这并不是Transformer模型的直接应用,这些方法改善了表格数据的处理并提升了性能,使得DANets优于传统模型如XGBoost和神经网络模型如TabNet。然而,这种性能提升以降低可解释性为代价。虽然基于注意力的特征选择提供了对特定特征重要性的洞察,但层次抽象的复杂性掩盖了决策过程,使其不如简单模型如决策树那样透明。为了解决可扩展性问题,DANets采用了结构重新参数化技术,这在推理过程中降低了计算复杂度,从而允许构建更深的网络而不会导致计算成本过高。尽管更深的架构提升了性能,但研究指出,由于表格数据中的特征空间有限,进一步增加深度带来的回报递减。
最近在表格深度学习中的进展利用了注意力机制和基于Transformer的方法,解决了表格数据处理中的挑战。SAINT模型通过整合注意力机制、混合架构和基于Transformer的方法,克服了表格数据的独特挑战。SAINT使用了两种类型的注意力机制:自注意力和样本间注意力[25]。自注意力使模型能够捕捉单个数据样本中特征之间的复杂关联,能够建模那些简单模型可能忽略的关系。而样本间注意力作为一种新颖的补充机制,使模型可以将一个数据行(数据点)与其他行进行比较,从而根据整个数据集中的模式进行更动态的学习过程。这一机制在某些特征可能存在噪声或缺失时尤为有用,因为模型可以从其他相似的数据点中学习。 SAINT的混合架构结合了自注意力和样本间注意力,创建了一个综合的学习系统。SAINT的先进架构在软件缺陷预测任务中也表现出色[103]。通过利用注意力机制和基于Transformer的方法,SAINT能够有效处理数据点之间的复杂交互,从而提升缺陷预测的性能。在处理混合数据类型时,SAINT始终优于传统模型如XGBoost和随机森林。然而,尽管SAINT提高了准确性,其复杂性影响了可解释性,因为引入了样本间注意力,这使得它不如简单模型直观。此外,与SAINT的注意力机制相关的计算需求在处理大型数据集时可能会带来可扩展性挑战。
除了这些创新之外,SAINT的改进版本SAINTENS进一步增强了模型处理表格数据的能力,解决了SAINT的一些局限性[104]。SAINTENS使用相同的注意力机制,但引入了MLP集成,以提高在处理缺失或噪声数据时的鲁棒性。该方法与对比预训练及Mixup和Cutmix等增强技术相结合,使SAINTENS能够生成更强的数据表示,特别是在缺失值较多的医疗数据集中。这些增强措施在性能、可解释性和可扩展性三个关键领域表现出相应的权衡。在性能方面,SAINT和SAINTENS在处理混合特征类型及标签数据有限的数据集时,一贯优于传统机器学习模型如GBDT以及深度学习模型如TabNet。SAINT的注意力机制提供了一定程度的可解释性,允许用户可视化重要的特征和数据点。然而,样本间注意力引入的复杂性使其相比于简单模型更难以直观解释。最后,虽然SAINT和SAINTENS在大型数据集上表现良好,但注意力机制,尤其是样本间注意力的计算需求,可能使这些模型在较大的数据集上更耗资源。
TaBERT模型通过引入注意力机制、混合架构和基于Transformer的方法,解决了表格数据的挑战。TaBERT的关键创新之一是其使用的注意力机制,特别是纵向自注意力机制,该机制在各行之间的垂直对齐表格单元表示上运行[105]。这使得模型能够捕捉不同行之间的依赖关系,通过关注与给定自然语言查询相关的列和行,改善了表格数据的表示。虽然这一机制提升了处理表格结构的性能,但也引入了额外的计算复杂性,使其在处理非常大的数据集或包含大量行的表格时,扩展性受到限制。图15展示了TaBERT的架构,该架构联合处理自然语言话语和表格模式,强调了模型如何使用多头注意力和池化机制同时捕捉文本和表格结构,从而生成用于下游任务(如语义解析)的统一表示。
在架构方面,TaBERT采用了一种称为“内容快照”的混合方法来减少计算开销。与对表格中所有行进行编码的高成本做法不同,TaBERT选择与自然语言查询最相关的部分行。这使得模型能够保留进行文本与表格联合推理所需的关键信息,同时减少处理不必要数据的负担。然而,这也带来了权衡:虽然内容快照机制帮助模型扩展到更大的表格,但如果所选择的行不足以充分代表表格的整体结构和内容,则可能会丢失关键信息。 TaBERT基于Transformer预训练框架,能够学习自然语言和结构化数据(表格)的表示。该模型在包含2600万张表格及其相应文本的大规模语料库上进行预训练,采用类似于BERT的掩码语言建模目标,并结合了表格特定的目标,如掩码列预测和单元格值恢复。这种预训练提高了模型对齐文本和表格数据的能力,支持下游任务如语义解析。
在性能与可解释性之间的平衡上,TaBERT在语义解析任务中表现出色,尤其在WikiTableQuestions等基准测试中表现优于BERT,如图15所示。然而,由于Transformer和注意力机制的使用引入了复杂性,TaBERT的可解释性不如决策树等简单的机器学习模型,后者能够为其决策提供更直接的解释。在可扩展性方面,内容快照机制帮助模型更高效地处理大型表格,但这也伴随着无法完全捕捉表格信息的风险。
TabTranSELU模型结合了近期表格深度学习的多项进展,利用注意力机制、混合架构和基于Transformer的方法,解决了表格数据的独特挑战。一个关键创新是自注意力机制的使用,使模型能够捕捉表格数据集中不同特征之间的依赖关系[26]。这一自注意力方法对识别输入特征之间的关系至关重要,因为表格数据缺乏图像或文本中的固有结构,增加了这一任务的复杂性。注意力机制通过将输入转换为查询、键和值矩阵来计算得分,从而使模型能够确定不同特征的加权重要性。这有助于模型更有效地学习特征间的关系,最终提升其预测性能。图16展示了TabTranSELU模型中的输入层、Transformer层和密集层。 该模型还采用了混合架构,通过简化传统的Transformer设计以适应表格数据。不同于NLP任务中使用的完整的编码器和解码器堆栈,TabTranSELU仅使用了单个编码器和解码器层。这种简化在不牺牲性能的情况下,调整了架构以满足表格数据的特定需求。此外,该模型集成了神经网络和Transformer的元素,能够同等高效地处理类别和连续特征。这些特征分别通过嵌入层进行处理,其中类别特征类似于NLP中的token进行处理,数值特征则通过位置编码来保留其在不同数据实例中的重要性。
TabTranSELU模型最显著的改进之一是将修正线性单元(ReLU)激活函数替换为缩放指数线性单元(SELU),解决了由于表格数据中负值存在而加剧的“ReLU失效”问题。SELU保留了正值和负值,防止了在训练过程中丢失潜在信息,使其更适合表格数据集。此外,数值特征的使用位置编码保留了其顺序和重要性,增强了模型处理连续数据的能力。在性能方面,TabTranSELU与传统算法如梯度提升决策树(如XGBoost)相比展现了竞争力,在大型数据集上仅有0.2%的微小差距。它还在类似的基于Transformer的模型(如TabTransformer)中表现良好,尽管在性能上略有牺牲,但在功能的广泛性上表现出色。 可解释性是TabTranSELU模型的一大优势,其嵌入层提供了对特征关系的清晰理解。通过对嵌入应用主成分分析等技术,用户可以直观地看到特征和类别之间的交互,尤其在处理匿名或不熟悉的数据集时,这种见解非常有价值——而这些见解通常在传统深度学习方法中更难获得。除了可解释性之外,该模型在可扩展性方面也表现出色。通过减少层数并引入SELU激活函数,该模型比传统的Transformer模型更加精简,计算强度也较低,因此非常适合更大规模的数据集,并且可以在资源需求最小化的情况下高效训练。总体而言,TabTranSELU在性能、可解释性和可扩展性之间取得了良好的平衡,使其成为多种表格数据应用的强有力选择。虽然我们已经讨论了2022年至2024年的多个模型,但需要注意的是,2022年之前的综述论文[7]未包含这些最新的研究。接下来的部分将探讨更前沿的架构创新和进一步推动边界的模型,这标志着表格深度学习演变的新阶段。
近年来,针对表格数据的深度学习模型发展迅速,随着领域的复杂性增加,涌现出许多新架构。表3总结了2023年至2024年间引入的关键模型,包括LF-Transformer和ReConTab等创新方法,这些模型利用先进的基于Transformer和混合技术,解决了特征交互和噪声等挑战。表格还概述了它们的架构、训练效率和显著特点,展示了该领域最新的进展。以LF-Transformer为例,该模型通过行间和列间注意力机制捕捉复杂的特征交互,使用矩阵分解和潜在因子嵌入来提高预测精度,尤其是在噪声或数据不完整的情况下[106]。虽然该模型在回归和分类任务中表现出色,但其复杂性降低了可解释性,并增加了处理较大数据集时的计算需求。同样,ReConTab利用基于Transformer的不对称自动编码器从原始数据中提取关键信息,并引入特征破坏技术以增强模型的鲁棒性,尽管增加了复杂性,导致更高的计算成本和透明度下降[5]。GNN4TDL也基于Transformer的自动编码器结构,利用特征破坏提高对噪声的鲁棒性和泛化能力,但在可扩展性和可解释性上面临挑战[27]。
为了扩展Transformer模型的应用范围,MambaTab结合了结构化状态空间模型和特征增量学习,比标准的自注意力机制更有效地捕捉表格数据中的长距离依赖关系[3]。MambaTab适应不断变化的特征集,增强了可扩展性,但牺牲了可解释性,因为它缺乏像TabNet那样解释特征重要性的注意力机制。SwitchTab采用了不对称的编码器-解码器架构,通过分离项目器将共同特征和显著特征解耦,改善了表格数据中的特征表示[6]。通过使用基于特征破坏的方法,SwitchTab提高了性能和可解释性,但其复杂性影响了可扩展性,因此在处理非常大规模数据集时效率较低。上下文感知表格条目表示 (CARTE) 也采用了先进的架构,结合了图神经网络(GNN)与图注意力层,将每个表格行表示为一个小图,使模型能够捕捉跨表格的复杂上下文关系[108]。CARTE在迁移学习中表现出色,并且在异构数据集上表现良好,尽管其图注意力机制在处理大型数据集时降低了可解释性和可扩展性。
在分词和基于提示的模型领域,TP-BERTa通过应用相对幅度分词(RMT)脱颖而出,将标量数值转换为离散标记,有效地将数值数据视为语言模型框架中的词汇[107]。此外,其内部特征注意力(IFA)模块将特征名称和值统一为一致的表示,减少了特征干扰并提高了预测准确性。然而,与梯度提升决策树等更简单的模型相比,这种深度集成降低了可解释性。Trompt采用了受提示学习启发的方法,通过使用列和提示嵌入来推导样本特定的特征重要性,从而根据每个数据实例调整特征的相关性[112]。尽管Trompt在高变异表格数据集上提升了性能,但其嵌入的抽象性质损害了可解释性并增加了复杂性。
其他模型结合了创新机制和现有架构以应对表格数据的挑战。TabR集成了一个检索增强机制,利用基于L2的最近邻居以及前馈神经网络,通过从训练数据中检索相关上下文来增强局部学习[110]。尽管这种方法显著提高了预测准确性,但在训练过程中引入了计算开销,影响了可扩展性。BiSHop利用双向稀疏Hopfield模块来处理表格数据,按列和按行捕捉特征内部和特征之间的交互[109]。其专门设计的表格嵌入和可学习的稀疏性提供了强大的性能,但以降低可解释性和更高的计算需求为代价,限制了其在大型数据集上的应用。 最后,超图增强的表格数据表示学习 (HYTREL) 使用超图结构感知Transformer,利用超图表示表格,以捕捉复杂的单元格、行和列关系[111]。这使得HYTREL能够保留关键的结构属性,并在列注释和表格相似性预测等任务上表现出色,尽管超图的复杂性降低了可解释性。TabLLM是一种新颖的方法,它将表格数据序列化为自然语言字符串,使大语言模型(LLMs)像处理文本一样处理它[84]。虽然在零样本和少样本学习场景中有效,但TabLLM面临可扩展性问题和可解释性挑战,因为LLMs的高计算需求以及它们对表格数据的抽象表示。