表格数据的语言建模：基础、技术与演变综述

表格数据作为各个领域中广泛存在的数据类型，由于其异质性和复杂的结构关系，带来了独特的挑战。在表格数据分析中实现高预测性能和鲁棒性，对众多应用具有重要意义。受自然语言处理领域近期进展的影响，特别是Transformer架构的影响，表格数据建模的新方法不断涌现。早期技术集中在从头开始训练Transformers，但往往遇到可扩展性问题。随后，利用预训练语言模型（如BERT）的方法得到了发展，这些方法需要较少的数据，并且表现出更好的性能。最近，随着大型语言模型（如GPT和LLaMA）的出现，这一领域发生了进一步的革命，使得仅需最少微调便可实现更先进和多样的应用。

尽管人们对此领域的兴趣日益增长，但关于表格数据语言建模技术的全面综述仍然缺乏。本文填补了这一空白，系统回顾了表格数据语言建模的发展，内容包括：(1) 不同表格数据结构和数据类型的分类；(2) 模型训练中使用的关键数据集和评估任务的回顾；(3) 建模技术的总结，包括广泛采用的数据处理方法、流行架构和训练目标；(4) 从传统的预训练/预训练语言模型到大型语言模型的演变；(5) 识别表格数据分析中语言建模的持续挑战和潜在的未来研究方向。与本综述相关的GitHub页面可访问：https://github.com/lanxiang1017/Language-Modeling-on-Tabular-Data-Survey.git。关键词: 语言建模, 表格数据, 预训练语言模型, 大型语言模型

表格数据由具有一致特征集的行组成，是现实世界中最常见的数据类型之一，广泛应用于不同领域[1, 2]。在某些关键领域[3-5]，实现高预测性能和鲁棒性可以带来显著的利益。然而，由于表格数据的复杂结构，进行有效分析具有一定挑战性。例如，表格数据中的一个样本可以是表格中的单行（1D表格数据），也可以是一组表格中的完整表格（2D表格数据）。此外，表格数据通常具有广泛的异质特性[6]，如数值型、分类型和文本元素等多种数据类型。同时，表格中的列与行之间往往存在复杂的关系。在过去的几十年中，自然语言处理（NLP）领域的语言建模取得了显著的进展，特别是Transformer架构的出现。在表格建模的背景下，早期研究主要集中于使用NLP技术处理表格数据，如嵌入机制、预训练方法和架构修改。这些工作主要涉及从头开始为表格数据预训练基于Transformer的模型，这需要大量的数据，在某些领域（如医疗[7, 8]）中可能不切实际。虽然这些方法在某些场景中有效，但往往面临可扩展性和效率方面的挑战。同时，一些研究者利用预训练语言模型（PLMs）（如BERT [9]）对表格数据进行建模。这些基于PLM的模型需要较少的训练数据，同时提供了更优越的预测性能。这表明，在特定任务的表格数据集上调整和重用预训练语言模型的有效性[10]。

最近，大型语言模型（LLMs）的出现进一步改变了这一领域的格局。诸如GPT [11]和LLaMA [12]等模型展示了卓越的能力，在多种任务中实现了最先进的结果，且仅需少量微调。这些模型在少样本和零样本学习场景中表现出色，能够在几乎无需额外训练数据的情况下执行复杂任务。这一发展为在表格数据中利用LLMs进行更高级和多样化的应用开辟了新的途径[13]。这一从从头训练模型或使用PLMs到采用LLMs的演变，标志着表格数据语言建模中的一个重大范式转变。

尽管对从表格数据中提取广泛知识的兴趣日益浓厚，但研究社区中缺乏一个全面的综述，能够清晰地整理现有的表格数据语言建模方法，概述技术趋势，识别挑战，并提出未来的研究方向。为填补这一空白，本文通过对表格数据语言建模的系统回顾，提供了一次全面的综述。本文旨在在这一范式转变的关键时刻，对表格数据语言建模的发展进行全面的总结和分类，展示这一前景广阔的研究领域的全貌。总而言之，本综述的主要贡献有三点。首先，本文首次将表格数据分类为1D和2D数据格式。与现有综述只关注用于传统任务（如推理和数据生成）的1D表格数据[14, 15]或专注于更复杂任务（如信息检索和表格理解）的2D表格数据[16, 17]不同，本文首次对两种类型的表格数据的任务和数据集进行系统回顾。其次，本文回顾了表格数据语言建模技术的最新进展，并提供了详尽的分类。第三，本文强调了表格数据语言建模中的各种研究挑战和潜在的探索方向。

本文的结构如图2所示。首先，我们在第2节介绍了表格数据的基础，提供了四个主要部分的全面概述：数据结构（第2.1节）、数据类型（第2.2节）、下游任务（第2.3节）和数据集（第2.4节）。我们解释了最近研究关注的两种主要表格数据结构：1D和2D表格数据。同时，我们讨论了表格领域中的不同数据类型。接下来，我们详细描述了八大主要下游任务：表格问答（第2.3.1节）、表格检索（第2.3.2节）、表格语义解析（第2.3.3节）、表格元数据预测（第2.3.4节）、表格内容填充（第2.3.5节）、表格预测（第2.3.6节）、表格事实核查（第2.3.7节）和表格生成（第2.3.8节）。随后，我们概述了一些常用的数据集及其关键特性，这些数据集与不同的下游任务相关联。

接下来，我们呈现了对近期研究的分类，总结了表格数据语言建模技术，并将其分为三个关键领域：输入处理（第3.1节）、中间模块（第3.2节）和训练目标（第3.3节）。具体而言，输入处理专注于将原始表格数据转换为适合语言模型的格式。我们进一步将输入处理技术分为具体的子类别：数据检索（第3.1.1节）、表格序列化（第3.1.2节）和上下文整合（第3.1.3节）。在中间模块中，我们讨论了两个组成部分：位置编码（第3.2.1节）和注意力机制（第3.2.2节），这些组件经过修改以在表格领域中实现更好的预测性能。此外，我们讨论了训练目标，它在帮助语言模型学习语义信息方面起着关键作用。随后，我们分析了语言模型在表格领域的演变（第4节）。首先，我们描述了早期从头预训练和使用PLM的适应性及其优势，特别是Transformer的引入（第4.1节）。然后，我们回顾了LLMs在表格数据建模中的最新进展，并强调了它们与以往方法的不同之处（第4.2节）。最后，我们在第5节中指出了表格数据语言建模中的若干挑战和未来的机遇，并在第6节总结了本文的内容。