Information extraction (IE) from visually-rich documents (VRDs) has achieved SOTA performance recently thanks to the adaptation of Transformer-based language models, which demonstrates great potential of pre-training methods. In this paper, we present a new approach to improve the capability of language model pre-training on VRDs. Firstly, we introduce a new IE model that is query-based and employs the span extraction formulation instead of the commonly used sequence labelling approach. Secondly, to further extend the span extraction formulation, we propose a new training task which focuses on modelling the relationships between semantic entities within a document. This task enables the spans to be extracted recursively and can be used as both a pre-training objective as well as an IE downstream task. Evaluation on various datasets of popular business documents (invoices, receipts) shows that our proposed method can improve the performance of existing models significantly, while providing a mechanism to accumulate model knowledge from multiple downstream IE tasks.


翻译:由于改编了基于变异器的语言模型,显示培训前方法的巨大潜力,从视觉丰富文件(VRDs)中提取信息(IE)最近取得了SOTA的绩效。在本文件中,我们提出了提高VRDs语言模型预培训能力的新办法。首先,我们采用了基于查询的新的IE模式,采用跨范围抽取方式,而不是常用的序列标签方法。第二,为了进一步扩大抽取方式,我们提议了一项新的培训任务,重点是在文件中模拟语义实体之间的关系。这一任务使这些区域能够反复提取,并可以用作培训前的目标和IE下游任务。对流行商业文件(发票、收据)的各种数据集的评估表明,我们提出的方法可以大大改进现有模型的性能,同时提供一个机制,从多个下游的 IE任务中积累模型知识。

1
下载
关闭预览

相关内容

信息抽取 (Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务。信息以统一的形式集成在一起的好处是方便检查和比较。 信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的,那将由系统设计时定下的领域范围而定。
专知会员服务
43+阅读 · 2020年9月25日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
论文浅尝 | Global Relation Embedding for Relation Extraction
开放知识图谱
12+阅读 · 2019年3月3日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
论文浅尝 | Distant Supervision for Relation Extraction
开放知识图谱
4+阅读 · 2017年12月25日
Arxiv
3+阅读 · 2019年3月1日
Arxiv
10+阅读 · 2018年4月19日
VIP会员
Top
微信扫码咨询专知VIP会员