Structured text understanding on Visually Rich Documents (VRDs) is a crucial part of Document Intelligence. Due to the complexity of content and layout in VRDs, structured text understanding has been a challenging task. Most existing studies decoupled this problem into two sub-tasks: entity labeling and entity linking, which require an entire understanding of the context of documents at both token and segment levels. However, little work has been concerned with the solutions that efficiently extract the structured data from different levels. This paper proposes a unified framework named StrucTexT, which is flexible and effective for handling both sub-tasks. Specifically, based on the transformer, we introduce a segment-token aligned encoder to deal with the entity labeling and entity linking tasks at different levels of granularity. Moreover, we design a novel pre-training strategy with three self-supervised tasks to learn a richer representation. StrucTexT uses the existing Masked Visual Language Modeling task and the new Sentence Length Prediction and Paired Boxes Direction tasks to incorporate the multi-modal information across text, image, and layout. We evaluate our method for structured text understanding at segment-level and token-level and show it outperforms the state-of-the-art counterparts with significantly superior performance on the FUNSD, SROIE, and EPHOIE datasets.


翻译:关于视觉丰富文件(VRDs)的结构化文本理解是文件智能的关键部分。由于 VRDs的内容和布局的复杂性,结构化文本理解是一项艰巨的任务。大多数现有研究将这一问题分解成两个子任务:实体标签和实体链接,这要求在象征性和分段两级对文件背景有全面了解。然而,对于有效从不同级别提取结构化数据的解决办法,几乎没有什么工作关注。本文件提议了一个名为SstrucTexT的统一框架,这个框架对处理两个子任务既灵活又有效。具体地说,基于变压器,我们引入一个段式对齐的编码器,处理将这一问题分为两个子任务:实体标签和实体,在不同级别将任务连接在一起。此外,我们设计了一个新的培训前战略,有三个自监督任务来学习更丰富的代表性。 StrucTexT使用现有的保护型视觉语言建模任务和新的句式预测和组合框方向,将多模式信息纳入到文本、图像和布局之间。我们用结构化的系统化的SHO-FA-SDFA-SDFA-SDFA-SDFA-SDA-SDA-SDA-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SB-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-S-S-SD-SD-SD-S-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-SD-S-S-SD-SD-S-S-S-S-S-S-S-A-S-S-A-A-A-A-A-A-

1
下载
关闭预览

相关内容

【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
33+阅读 · 2020年4月5日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
已删除
将门创投
5+阅读 · 2018年2月28日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
5+阅读 · 2018年1月18日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
已删除
将门创投
5+阅读 · 2018年2月28日
Top
微信扫码咨询专知VIP会员