【KDD2021】TUTA: 通用表格预训练的树结构Transformer - 专知VIP

会员服务 ·

2

表格信息 · Transformer · 表格结构理解 ·

2021 年 8 月 22 日

【KDD2021】TUTA: 通用表格预训练的树结构Transformer

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

表格是一种非常重要和常见的半结构化数据，广泛使用在文档和网页中。在收集的六千万个文档和网页表格（包括超过二十亿单元格）中，微软亚洲研究院的研究员们首次对通用结构的表格进行了大规模的预训练。并且在表格结构理解的六个下游数据集上，也都取得 SOTA 的效果。

理解表格面临着各种挑战，需要综合理解语义、空间和结构，如：需要在简短的单元格文本里来捕捉表格里的语义；需要在二维的表格空间中进行理解；需要对表格的层级信息理解。

Transformer 在自然语言的预训练上已经取得了较好的效果。但是，针对通用表格位置、结构建模困难等一系列问题，本文相应地提出了 Tree-based Transformer。同时，研究员们还设计了二维树来建模单元格的空间和层级，并对单元格的二维树坐标和单元格间的二维树距离进行了量化，进一步设计了基于二维树结构的注意力机制。

在表格预训练任务上，为了可以学习到不同层级的表征，且更好的应用到不同级别的下游任务上，本文除了使用经典的 token MLM 任务，还进一步设计了 cell-level cloze 的任务和 table-level 的 context retrieval 任务。

实验表明，模型在表格结构理解（表格类型识别和单元格类型识别）的六个下游数据集上均取得了最好的效果。消融实验也证明了利用树结构对理解通用结构表格的有效性。同时，结合三个预训练任务，也有助于提高下游任务的表现。

成为VIP会员查看完整内容

25

相关内容

表格信息

【CIKM2021】超链接预训练信息检索

专知会员服务

17+阅读 · 2021年8月24日

【KDD2021】基于预训练语言模型的百度搜索排序

专知会员服务

16+阅读 · 2021年8月19日

【KDD2021】检索交互机的表格数据预测

专知会员服务

16+阅读 · 2021年8月13日

【KDD2021】高效数据特定模型搜索的协同过滤

专知会员服务

15+阅读 · 2021年6月26日

【KDD2021】大规模异质图上的预训练框架

专知会员服务

46+阅读 · 2021年6月20日

【CVPR2021】预训练图像处理Transformer

专知会员服务

45+阅读 · 2021年6月1日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

AAAI2021 | 学习预训练图神经网络

AAAI2021 | 学习预训练图神经网络

专知会员服务

116+阅读 · 2021年1月28日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

专知会员服务

63+阅读 · 2020年8月19日

Reformer：一个高效的 Transformer

Reformer：一个高效的 Transformer

TensorFlow

9+阅读 · 2020年2月13日

超越BERT、GPT，微软提出通用预训练模型MASS

超越BERT、GPT，微软提出通用预训练模型MASS

机器之心

4+阅读 · 2019年5月10日

ICML 2019 | 序列到序列自然语言生成任务超越BERT、GPT！微软提出通用预训练模型MASS

ICML 2019 | 序列到序列自然语言生成任务超越BERT、GPT！微软提出通用预训练模型MASS

微软研究院AI头条

5+阅读 · 2019年5月9日

进一步改进GPT和BERT：使用Transformer的语言模型

进一步改进GPT和BERT：使用Transformer的语言模型

机器之心

16+阅读 · 2019年5月1日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

30+阅读 · 2019年3月30日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

PaperWeekly

14+阅读 · 2019年3月18日

BERT-预训练的强大

BERT-预训练的强大

微信AI

60+阅读 · 2019年3月7日

GLUE排行榜上全面超越BERT的模型近日公布了！

GLUE排行榜上全面超越BERT的模型近日公布了！

机器之心

9+阅读 · 2019年2月13日

用可视化解构BERT，我们从上亿参数中提取出了6种直观模式

用可视化解构BERT，我们从上亿参数中提取出了6种直观模式

大数据文摘

4+阅读 · 2019年1月21日

Discovering Spatial Relationships by Transformers for Domain Generalization

Arxiv

0+阅读 · 2021年10月13日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

A Survey of Transformers

Arxiv

103+阅读 · 2021年6月8日

Colorization Transformer

Arxiv

9+阅读 · 2021年2月8日

Benchmarking Knowledge-Enhanced Commonsense Question Answering via Knowledge-to-Text Transformation

Benchmarking Knowledge-Enhanced Commonsense Question Answering via Knowledge-to-Text Transformation

Arxiv

8+阅读 · 2021年1月5日

Efficient Transformers: A Survey

Arxiv

23+阅读 · 2020年9月16日

Graph Transformer Networks

Arxiv

15+阅读 · 2020年2月5日

LXMERT: Learning Cross-Modality Encoder Representations from Transformers

LXMERT: Learning Cross-Modality Encoder Representations from Transformers

Arxiv

4+阅读 · 2019年12月3日

Span-based Joint Entity and Relation Extraction with Transformer Pre-training

Arxiv

7+阅读 · 2019年9月17日

Music Transformer

Music Transformer

Arxiv

5+阅读 · 2018年12月12日

VIP会员

相关主题

表格结构理解

相关VIP内容

【CIKM2021】超链接预训练信息检索

专知会员服务

17+阅读 · 2021年8月24日

【KDD2021】基于预训练语言模型的百度搜索排序

专知会员服务

16+阅读 · 2021年8月19日

【KDD2021】检索交互机的表格数据预测

专知会员服务

16+阅读 · 2021年8月13日

【KDD2021】高效数据特定模型搜索的协同过滤

专知会员服务

15+阅读 · 2021年6月26日

【KDD2021】大规模异质图上的预训练框架

专知会员服务

46+阅读 · 2021年6月20日

【CVPR2021】预训练图像处理Transformer

专知会员服务

45+阅读 · 2021年6月1日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

AAAI2021 | 学习预训练图神经网络

AAAI2021 | 学习预训练图神经网络

专知会员服务

116+阅读 · 2021年1月28日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

专知会员服务

63+阅读 · 2020年8月19日

热门VIP内容

开通专知VIP会员享更多权益服务

《美陆军徒步机动作战条令手册》最新168页

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

军事后勤数字化未来展望

《美海军后勤体系整合与创新挑战》最新报告

相关资讯

Reformer：一个高效的 Transformer

Reformer：一个高效的 Transformer

TensorFlow

9+阅读 · 2020年2月13日

超越BERT、GPT，微软提出通用预训练模型MASS

超越BERT、GPT，微软提出通用预训练模型MASS

机器之心

4+阅读 · 2019年5月10日

ICML 2019 | 序列到序列自然语言生成任务超越BERT、GPT！微软提出通用预训练模型MASS

ICML 2019 | 序列到序列自然语言生成任务超越BERT、GPT！微软提出通用预训练模型MASS

微软研究院AI头条

5+阅读 · 2019年5月9日

进一步改进GPT和BERT：使用Transformer的语言模型

进一步改进GPT和BERT：使用Transformer的语言模型

机器之心

16+阅读 · 2019年5月1日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

30+阅读 · 2019年3月30日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

PaperWeekly

14+阅读 · 2019年3月18日

BERT-预训练的强大

BERT-预训练的强大

微信AI

60+阅读 · 2019年3月7日

GLUE排行榜上全面超越BERT的模型近日公布了！

GLUE排行榜上全面超越BERT的模型近日公布了！

机器之心

9+阅读 · 2019年2月13日

用可视化解构BERT，我们从上亿参数中提取出了6种直观模式

用可视化解构BERT，我们从上亿参数中提取出了6种直观模式

大数据文摘

4+阅读 · 2019年1月21日

相关论文

Discovering Spatial Relationships by Transformers for Domain Generalization

Arxiv

0+阅读 · 2021年10月13日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

A Survey of Transformers

Arxiv

103+阅读 · 2021年6月8日

Colorization Transformer

Arxiv

9+阅读 · 2021年2月8日

Benchmarking Knowledge-Enhanced Commonsense Question Answering via Knowledge-to-Text Transformation

Benchmarking Knowledge-Enhanced Commonsense Question Answering via Knowledge-to-Text Transformation

Arxiv

8+阅读 · 2021年1月5日

Efficient Transformers: A Survey

Arxiv

23+阅读 · 2020年9月16日

Graph Transformer Networks

Arxiv

15+阅读 · 2020年2月5日

LXMERT: Learning Cross-Modality Encoder Representations from Transformers

LXMERT: Learning Cross-Modality Encoder Representations from Transformers

Arxiv

4+阅读 · 2019年12月3日

Span-based Joint Entity and Relation Extraction with Transformer Pre-training

Arxiv

7+阅读 · 2019年9月17日

Music Transformer

Music Transformer

Arxiv

5+阅读 · 2018年12月12日

微信扫码咨询专知VIP会员