Compared to general document analysis tasks, form document structure understanding and retrieval are challenging. Form documents are typically made by two types of authors; A form designer, who develops the form structure and keys, and a form user, who fills out form values based on the provided keys. Hence, the form values may not be aligned with the form designer's intention (structure and keys) if a form user gets confused. In this paper, we introduce Form-NLU, the first novel dataset for form structure understanding and its key and value information extraction, interpreting the form designer's intent and the alignment of user-written value on it. It consists of 857 form images, 6k form keys and values, and 4k table keys and values. Our dataset also includes three form types: digital, printed, and handwritten, which cover diverse form appearances and layouts. We propose a robust positional and logical relation-based form key-value information extraction framework. Using this dataset, Form-NLU, we first examine strong object detection models for the form layout understanding, then evaluate the key information extraction task on the dataset, providing fine-grained results for different types of forms and keys. Furthermore, we examine it with the off-the-shelf pdf layout extraction tool and prove its feasibility in real-world cases.


翻译:相比于一般的文档分析任务,表格文档结构的理解和检索更具挑战性。 表格文档通常由两种类型的作者制作:一个是表单设计师,他开发表单结构和键值;另一个是表单用户,他根据提供的键值填写表单值。因此,如果表单用户困惑了,表单值可能与表单设计师的意图(结构和键值)不一致。在本文中,我们介绍了Form-NLU,这是一个用于表单结构理解及其键值信息提取的全新数据集,用于解释表单设计者的意图,并将用户编写的值与它对齐。它包括857张表格图像、6k 表格键和值和4k 表格键和值。我们的数据集还包括三种表格类型:数字、印刷和手写,涵盖了多种表格外观和布局。我们提出了一种强大的基于位置和逻辑关系的表格键值信息提取框架。使用这个数据集,我们首先检查了对于表格布局理解强大的物体检测模型,然后在数据集上评估了键信息提取任务,并为不同类型的表格和键提供了细粒度的结果。此外,我们使用现成的pdf布局提取工具对其进行了验证,并证明了其在实际案例中的可行性。

0
下载
关闭预览

相关内容

信息抽取也被称为事件抽取。与自动摘要相比,信息抽取更有目的性,并能将找到的信息以一定的框架展示。有时信息抽取也被用来完成自动摘要。
【2023新书】使用Python进行统计和数据可视化,554页pdf
专知会员服务
125+阅读 · 2023年1月29日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
使用BERT做文本摘要
专知
23+阅读 · 2019年12月7日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
时序数据异常检测工具/数据集大列表
极市平台
65+阅读 · 2019年2月23日
干货 | 100+个NLP数据集大放送,再不愁数据!
数据派THU
11+阅读 · 2018年5月2日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
14+阅读 · 2022年8月25日
VIP会员
相关VIP内容
【2023新书】使用Python进行统计和数据可视化,554页pdf
专知会员服务
125+阅读 · 2023年1月29日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
相关资讯
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
使用BERT做文本摘要
专知
23+阅读 · 2019年12月7日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
时序数据异常检测工具/数据集大列表
极市平台
65+阅读 · 2019年2月23日
干货 | 100+个NLP数据集大放送,再不愁数据!
数据派THU
11+阅读 · 2018年5月2日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员