Document information extraction tasks performed by humans create data consisting of a PDF or document image input, and extracted string outputs. This end-to-end data is naturally consumed and produced when performing the task because it is valuable in and of itself. It is naturally available, at no additional cost. Unfortunately, state-of-the-art word classification methods for information extraction cannot use this data, instead requiring word-level labels which are expensive to create and consequently not available for many real life tasks. In this paper we propose the Attend, Copy, Parse architecture, a deep neural network model that can be trained directly on end-to-end data, bypassing the need for word-level labels. We evaluate the proposed architecture on a large diverse set of invoices, and outperform a state-of-the-art production system based on word classification. We believe our proposed architecture can be used on many real life information extraction tasks where word classification cannot be used due to a lack of the required word-level labels.


翻译:由人类完成的文档信息提取任务创建数据, 包括 PDF 或文档图像输入, 以及提取的字符串输出 。 这种端到端的数据在执行任务时自然消耗和生成, 因为它本身很宝贵。 它自然是可以得到的, 没有额外的成本。 不幸的是, 最先进的信息提取单词分类方法不能使用这一数据, 而不是需要昂贵的单词级标签来创建, 从而无法用于许多真实生活任务 。 在本文中, 我们建议使用一个深层神经网络模型, 可以直接进行端到端数据的培训, 绕过字级标签的需要 。 我们用大量不同的发票来评估拟议的结构, 并且超越基于字级分类的最先进的生产系统 。 我们相信, 我们拟议的结构可以用于许多真实的生命信息提取任务, 因为缺少所需的字级标签, 无法使用字级分类 。

0
下载
关闭预览

相关内容

信息抽取 (Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务。信息以统一的形式集成在一起的好处是方便检查和比较。 信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的,那将由系统设计时定下的领域范围而定。
【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
76+阅读 · 2021年1月30日
【KDD 2020】基于互信息最大化的多知识图谱语义融合
专知会员服务
39+阅读 · 2020年9月7日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
ExBert — 可视化分析Transformer学到的表示
专知会员服务
30+阅读 · 2019年10月16日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
一文读懂Attention机制
机器学习与推荐算法
63+阅读 · 2020年6月9日
基于PyTorch/TorchText的自然语言处理库
专知
27+阅读 · 2019年4月22日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
计算机类 | ISCC 2019等国际会议信息9条
Call4Papers
5+阅读 · 2018年12月25日
已删除
将门创投
4+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【干货】--基于Python的文本情感分类
R语言中文社区
5+阅读 · 2018年1月5日
Arxiv
3+阅读 · 2019年3月1日
Arxiv
19+阅读 · 2018年3月28日
VIP会员
相关资讯
一文读懂Attention机制
机器学习与推荐算法
63+阅读 · 2020年6月9日
基于PyTorch/TorchText的自然语言处理库
专知
27+阅读 · 2019年4月22日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
计算机类 | ISCC 2019等国际会议信息9条
Call4Papers
5+阅读 · 2018年12月25日
已删除
将门创投
4+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【干货】--基于Python的文本情感分类
R语言中文社区
5+阅读 · 2018年1月5日
Top
微信扫码咨询专知VIP会员