表格是一种非常重要和常见的半结构化数据,广泛使用在文档和网页中。在收集的六千万个文档和网页表格(包括超过二十亿单元格)中,微软亚洲研究院的研究员们首次对通用结构的表格进行了大规模的预训练。并且在表格结构理解的六个下游数据集上,也都取得 SOTA 的效果。
理解表格面临着各种挑战,需要综合理解语义、空间和结构,如:需要在简短的单元格文本里来捕捉表格里的语义;需要在二维的表格空间中进行理解;需要对表格的层级信息理解。
Transformer 在自然语言的预训练上已经取得了较好的效果。但是,针对通用表格位置、结构建模困难等一系列问题,本文相应地提出了 Tree-based Transformer。同时,研究员们还设计了二维树来建模单元格的空间和层级,并对单元格的二维树坐标和单元格间的二维树距离进行了量化,进一步设计了基于二维树结构的注意力机制。
在表格预训练任务上,为了可以学习到不同层级的表征,且更好的应用到不同级别的下游任务上,本文除了使用经典的 token MLM 任务,还进一步设计了 cell-level cloze 的任务和 table-level 的 context retrieval 任务。
实验表明,模型在表格结构理解(表格类型识别和单元格类型识别)的六个下游数据集上均取得了最好的效果。消融实验也证明了利用树结构对理解通用结构表格的有效性。同时,结合三个预训练任务,也有助于提高下游任务的表现。