Structured text understanding on Visually Rich Documents (VRDs) is a crucial part of Document Intelligence. Due to the complexity of content and layout in VRDs, structured text understanding has been a challenging task. Most existing studies decoupled this problem into two sub-tasks: entity labeling and entity linking, which require an entire understanding of the context of documents at both token and segment levels. However, little work has been concerned with the solutions that efficiently extract the structured data from different levels. This paper proposes a unified framework named StrucTexT, which is flexible and effective for handling both sub-tasks. Specifically, based on the transformer, we introduce a segment-token aligned encoder to deal with the entity labeling and entity linking tasks at different levels of granularity. Moreover, we design a novel pre-training strategy with three self-supervised tasks to learn a richer representation. StrucTexT uses the existing Masked Visual Language Modeling task and the new Sentence Length Prediction and Paired Boxes Direction tasks to incorporate the multi-modal information across text, image, and layout. We evaluate our method for structured text understanding at segment-level and token-level and show it outperforms the state-of-the-art counterparts with significantly superior performance on the FUNSD, SROIE, and EPHOIE datasets.


翻译:关于视觉丰富文件(VRDs)的结构化文本理解是文件智能的关键部分。由于 VRDs的内容和布局的复杂性,结构化文本理解是一项艰巨的任务。大多数现有研究将这一问题分解成两个子任务:实体标签和实体链接,这要求在象征性和分段两级对文件背景有全面了解。然而,对于有效从不同级别提取结构化数据的解决办法,几乎没有什么工作关注。本文件提议了一个名为SstrucTexT的统一框架,这个框架对处理两个子任务既灵活又有效。具体地说,基于变压器,我们引入一个段式对齐的编码器,处理将这一问题分为两个子任务:实体标签和实体,在不同级别将任务连接在一起。此外,我们设计了一个新的培训前战略,有三个自监督任务来学习更丰富的代表性。 StrucTexT使用现有的保护型视觉语言建模任务和新的句式预测和组合框方向,将多模式信息纳入到文本、图像和布局之间。我们用结构化的系统化的SHO-FA-SDFA-SDFA-SDFA-SDFA-SDA-SDA-SDA-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SB-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-S-S-SD-SD-SD-S-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-S-S-SD-SD-S-S-S-S-S-S-S-A-S-S-A-A-A-A-A-A-

0
下载
关闭预览

相关内容

专知会员服务
29+阅读 · 2021年7月30日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
102+阅读 · 2020年7月22日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
【论文】结构GANs,Structured GANs,
专知会员服务
14+阅读 · 2020年1月16日
Transformer中的相对位置编码
AINLP
5+阅读 · 2020年11月28日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
通过预训练提升语言理解
开放知识图谱
4+阅读 · 2018年11月21日
stackGAN通过文字描述生成图片的V2项目
CreateAMind
3+阅读 · 2018年1月1日
Arxiv
7+阅读 · 2021年6月21日
UNITER: Learning UNiversal Image-TExt Representations
Arxiv
23+阅读 · 2019年9月25日
Arxiv
4+阅读 · 2019年9月5日
Arxiv
5+阅读 · 2019年8月22日
VIP会员
相关资讯
Transformer中的相对位置编码
AINLP
5+阅读 · 2020年11月28日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
通过预训练提升语言理解
开放知识图谱
4+阅读 · 2018年11月21日
stackGAN通过文字描述生成图片的V2项目
CreateAMind
3+阅读 · 2018年1月1日
Top
微信扫码咨询专知VIP会员