表格是一种非常重要和常见的半结构化数据,广泛使用在文档和网页中。在收集的六千万个文档和网页表格(包括超过二十亿单元格)中,微软亚洲研究院的研究员们首次对通用结构的表格进行了大规模的预训练。并且在表格结构理解的六个下游数据集上,也都取得 SOTA 的效果。

理解表格面临着各种挑战,需要综合理解语义、空间和结构,如:需要在简短的单元格文本里来捕捉表格里的语义;需要在二维的表格空间中进行理解;需要对表格的层级信息理解。

Transformer 在自然语言的预训练上已经取得了较好的效果。但是,针对通用表格位置、结构建模困难等一系列问题,本文相应地提出了 Tree-based Transformer。同时,研究员们还设计了二维树来建模单元格的空间和层级,并对单元格的二维树坐标和单元格间的二维树距离进行了量化,进一步设计了基于二维树结构的注意力机制。

在表格预训练任务上,为了可以学习到不同层级的表征,且更好的应用到不同级别的下游任务上,本文除了使用经典的 token MLM 任务,还进一步设计了 cell-level cloze 的任务和 table-level 的 context retrieval 任务。

实验表明,模型在表格结构理解(表格类型识别和单元格类型识别)的六个下游数据集上均取得了最好的效果。消融实验也证明了利用树结构对理解通用结构表格的有效性。同时,结合三个预训练任务,也有助于提高下游任务的表现。

成为VIP会员查看完整内容
24

相关内容

专知会员服务
16+阅读 · 2021年8月24日
专知会员服务
15+阅读 · 2021年8月19日
专知会员服务
15+阅读 · 2021年8月13日
专知会员服务
14+阅读 · 2021年6月26日
专知会员服务
45+阅读 · 2021年6月20日
专知会员服务
44+阅读 · 2021年6月1日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
37+阅读 · 2021年4月9日
AAAI2021 | 学习预训练图神经网络
专知会员服务
115+阅读 · 2021年1月28日
【KDD2020-UCLA-微软】GPT-GNN:图神经网络的预训练
专知会员服务
62+阅读 · 2020年8月19日
Reformer:一个高效的 Transformer
TensorFlow
9+阅读 · 2020年2月13日
超越BERT、GPT,微软提出通用预训练模型MASS
机器之心
4+阅读 · 2019年5月10日
进一步改进GPT和BERT:使用Transformer的语言模型
机器之心
16+阅读 · 2019年5月1日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
最新论文解读 | 基于预训练自然语言生成的文本摘要方法
微软研究院AI头条
57+阅读 · 2019年3月19日
BERT-预训练的强大
微信AI
60+阅读 · 2019年3月7日
GLUE排行榜上全面超越BERT的模型近日公布了!
机器之心
9+阅读 · 2019年2月13日
Arxiv
20+阅读 · 2021年9月21日
Arxiv
103+阅读 · 2021年6月8日
Arxiv
9+阅读 · 2021年2月8日
Arxiv
23+阅读 · 2020年9月16日
Arxiv
15+阅读 · 2020年2月5日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
VIP会员
相关VIP内容
专知会员服务
16+阅读 · 2021年8月24日
专知会员服务
15+阅读 · 2021年8月19日
专知会员服务
15+阅读 · 2021年8月13日
专知会员服务
14+阅读 · 2021年6月26日
专知会员服务
45+阅读 · 2021年6月20日
专知会员服务
44+阅读 · 2021年6月1日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
37+阅读 · 2021年4月9日
AAAI2021 | 学习预训练图神经网络
专知会员服务
115+阅读 · 2021年1月28日
【KDD2020-UCLA-微软】GPT-GNN:图神经网络的预训练
专知会员服务
62+阅读 · 2020年8月19日
相关资讯
Reformer:一个高效的 Transformer
TensorFlow
9+阅读 · 2020年2月13日
超越BERT、GPT,微软提出通用预训练模型MASS
机器之心
4+阅读 · 2019年5月10日
进一步改进GPT和BERT:使用Transformer的语言模型
机器之心
16+阅读 · 2019年5月1日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
最新论文解读 | 基于预训练自然语言生成的文本摘要方法
微软研究院AI头条
57+阅读 · 2019年3月19日
BERT-预训练的强大
微信AI
60+阅读 · 2019年3月7日
GLUE排行榜上全面超越BERT的模型近日公布了!
机器之心
9+阅读 · 2019年2月13日
相关论文
Arxiv
20+阅读 · 2021年9月21日
Arxiv
103+阅读 · 2021年6月8日
Arxiv
9+阅读 · 2021年2月8日
Arxiv
23+阅读 · 2020年9月16日
Arxiv
15+阅读 · 2020年2月5日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
微信扫码咨询专知VIP会员