表格数据作为各个领域中广泛存在的数据类型,由于其异质性和复杂的结构关系,带来了独特的挑战。在表格数据分析中实现高预测性能和鲁棒性,对众多应用具有重要意义。受自然语言处理领域近期进展的影响,特别是Transformer架构的影响,表格数据建模的新方法不断涌现。早期技术集中在从头开始训练Transformers,但往往遇到可扩展性问题。随后,利用预训练语言模型(如BERT)的方法得到了发展,这些方法需要较少的数据,并且表现出更好的性能。最近,随着大型语言模型(如GPT和LLaMA)的出现,这一领域发生了进一步的革命,使得仅需最少微调便可实现更先进和多样的应用。

尽管人们对此领域的兴趣日益增长,但关于表格数据语言建模技术的全面综述仍然缺乏。本文填补了这一空白,系统回顾了表格数据语言建模的发展,内容包括:(1) 不同表格数据结构和数据类型的分类;(2) 模型训练中使用的关键数据集和评估任务的回顾;(3) 建模技术的总结,包括广泛采用的数据处理方法、流行架构和训练目标;(4) 从传统的预训练/预训练语言模型到大型语言模型的演变;(5) 识别表格数据分析中语言建模的持续挑战和潜在的未来研究方向。与本综述相关的GitHub页面可访问:https://github.com/lanxiang1017/Language-Modeling-on-Tabular-Data-Survey.git。 关键词: 语言建模, 表格数据, 预训练语言模型, 大型语言模型

表格数据由具有一致特征集的行组成,是现实世界中最常见的数据类型之一,广泛应用于不同领域[1, 2]。在某些关键领域[3-5],实现高预测性能和鲁棒性可以带来显著的利益。然而,由于表格数据的复杂结构,进行有效分析具有一定挑战性。例如,表格数据中的一个样本可以是表格中的单行(1D表格数据),也可以是一组表格中的完整表格(2D表格数据)。此外,表格数据通常具有广泛的异质特性[6],如数值型、分类型和文本元素等多种数据类型。同时,表格中的列与行之间往往存在复杂的关系。 在过去的几十年中,自然语言处理(NLP)领域的语言建模取得了显著的进展,特别是Transformer架构的出现。在表格建模的背景下,早期研究主要集中于使用NLP技术处理表格数据,如嵌入机制、预训练方法和架构修改。这些工作主要涉及从头开始为表格数据预训练基于Transformer的模型,这需要大量的数据,在某些领域(如医疗[7, 8])中可能不切实际。虽然这些方法在某些场景中有效,但往往面临可扩展性和效率方面的挑战。同时,一些研究者利用预训练语言模型(PLMs)(如BERT [9])对表格数据进行建模。这些基于PLM的模型需要较少的训练数据,同时提供了更优越的预测性能。这表明,在特定任务的表格数据集上调整和重用预训练语言模型的有效性[10]。

最近,大型语言模型(LLMs)的出现进一步改变了这一领域的格局。诸如GPT [11]和LLaMA [12]等模型展示了卓越的能力,在多种任务中实现了最先进的结果,且仅需少量微调。这些模型在少样本和零样本学习场景中表现出色,能够在几乎无需额外训练数据的情况下执行复杂任务。这一发展为在表格数据中利用LLMs进行更高级和多样化的应用开辟了新的途径[13]。这一从从头训练模型或使用PLMs到采用LLMs的演变,标志着表格数据语言建模中的一个重大范式转变。

尽管对从表格数据中提取广泛知识的兴趣日益浓厚,但研究社区中缺乏一个全面的综述,能够清晰地整理现有的表格数据语言建模方法,概述技术趋势,识别挑战,并提出未来的研究方向。为填补这一空白,本文通过对表格数据语言建模的系统回顾,提供了一次全面的综述。本文旨在在这一范式转变的关键时刻,对表格数据语言建模的发展进行全面的总结和分类,展示这一前景广阔的研究领域的全貌。 总而言之,本综述的主要贡献有三点。首先,本文首次将表格数据分类为1D和2D数据格式。与现有综述只关注用于传统任务(如推理和数据生成)的1D表格数据[14, 15]或专注于更复杂任务(如信息检索和表格理解)的2D表格数据[16, 17]不同,本文首次对两种类型的表格数据的任务和数据集进行系统回顾。其次,本文回顾了表格数据语言建模技术的最新进展,并提供了详尽的分类。第三,本文强调了表格数据语言建模中的各种研究挑战和潜在的探索方向。

本文的结构如图2所示。首先,我们在第2节介绍了表格数据的基础,提供了四个主要部分的全面概述:数据结构(第2.1节)、数据类型(第2.2节)、下游任务(第2.3节)和数据集(第2.4节)。我们解释了最近研究关注的两种主要表格数据结构:1D和2D表格数据。同时,我们讨论了表格领域中的不同数据类型。接下来,我们详细描述了八大主要下游任务:表格问答(第2.3.1节)、表格检索(第2.3.2节)、表格语义解析(第2.3.3节)、表格元数据预测(第2.3.4节)、表格内容填充(第2.3.5节)、表格预测(第2.3.6节)、表格事实核查(第2.3.7节)和表格生成(第2.3.8节)。随后,我们概述了一些常用的数据集及其关键特性,这些数据集与不同的下游任务相关联。

接下来,我们呈现了对近期研究的分类,总结了表格数据语言建模技术,并将其分为三个关键领域:输入处理(第3.1节)、中间模块(第3.2节)和训练目标(第3.3节)。具体而言,输入处理专注于将原始表格数据转换为适合语言模型的格式。我们进一步将输入处理技术分为具体的子类别:数据检索(第3.1.1节)、表格序列化(第3.1.2节)和上下文整合(第3.1.3节)。在中间模块中,我们讨论了两个组成部分:位置编码(第3.2.1节)和注意力机制(第3.2.2节),这些组件经过修改以在表格领域中实现更好的预测性能。此外,我们讨论了训练目标,它在帮助语言模型学习语义信息方面起着关键作用。 随后,我们分析了语言模型在表格领域的演变(第4节)。首先,我们描述了早期从头预训练和使用PLM的适应性及其优势,特别是Transformer的引入(第4.1节)。然后,我们回顾了LLMs在表格数据建模中的最新进展,并强调了它们与以往方法的不同之处(第4.2节)。 最后,我们在第5节中指出了表格数据语言建模中的若干挑战和未来的机遇,并在第6节总结了本文的内容。

成为VIP会员查看完整内容
37

相关内容

大语言模型对齐研究综述
专知会员服务
46+阅读 · 8月1日
数据与多模态大型语言模型的协同作用综述
专知会员服务
48+阅读 · 7月13日
垂直领域大模型的定制化:理论基础与关键技术
视觉语言建模导论
专知会员服务
36+阅读 · 5月30日
大语言模型视角下的智能规划方法综述
专知会员服务
116+阅读 · 4月20日
多语言大型语言模型:资源、分类和前沿综述
专知会员服务
47+阅读 · 4月9日
专知会员服务
119+阅读 · 2020年12月9日
数据受限条件下的多模态处理技术综述
专知
16+阅读 · 2022年7月16日
基于模型的强化学习综述
专知
30+阅读 · 2022年7月13日
时空数据挖掘:综述
专知
24+阅读 · 2022年6月30日
基于深度学习的数据融合方法研究综述
专知
31+阅读 · 2020年12月10日
综述 | 异质信息网络分析与应用综述
专知
27+阅读 · 2020年8月8日
事件知识图谱构建技术与应用综述
专知
23+阅读 · 2020年8月6日
深度学习模型可解释性的研究进展
专知
25+阅读 · 2020年8月1日
清华大学《高级机器学习》课程
专知
38+阅读 · 2020年7月21日
SFFAI报告 | 常建龙 :深度卷积网络中的卷积算子研究进展
人工智能前沿讲习班
11+阅读 · 2018年10月22日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
Arxiv
157+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
399+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
Arxiv
139+阅读 · 2023年3月24日
Arxiv
20+阅读 · 2023年3月17日
VIP会员
相关VIP内容
大语言模型对齐研究综述
专知会员服务
46+阅读 · 8月1日
数据与多模态大型语言模型的协同作用综述
专知会员服务
48+阅读 · 7月13日
垂直领域大模型的定制化:理论基础与关键技术
视觉语言建模导论
专知会员服务
36+阅读 · 5月30日
大语言模型视角下的智能规划方法综述
专知会员服务
116+阅读 · 4月20日
多语言大型语言模型:资源、分类和前沿综述
专知会员服务
47+阅读 · 4月9日
专知会员服务
119+阅读 · 2020年12月9日
相关资讯
数据受限条件下的多模态处理技术综述
专知
16+阅读 · 2022年7月16日
基于模型的强化学习综述
专知
30+阅读 · 2022年7月13日
时空数据挖掘:综述
专知
24+阅读 · 2022年6月30日
基于深度学习的数据融合方法研究综述
专知
31+阅读 · 2020年12月10日
综述 | 异质信息网络分析与应用综述
专知
27+阅读 · 2020年8月8日
事件知识图谱构建技术与应用综述
专知
23+阅读 · 2020年8月6日
深度学习模型可解释性的研究进展
专知
25+阅读 · 2020年8月1日
清华大学《高级机器学习》课程
专知
38+阅读 · 2020年7月21日
SFFAI报告 | 常建龙 :深度卷积网络中的卷积算子研究进展
人工智能前沿讲习班
11+阅读 · 2018年10月22日
相关基金
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员