The extraction of relevant information carried out by named entities in handwriting documents is still a challenging task. Unlike traditional information extraction approaches that usually face text transcription and named entity recognition as separate subsequent tasks, we propose in this paper an end-to-end transformer-based approach to jointly perform these two tasks. The proposed approach operates at the paragraph level, which brings two main benefits. First, it allows the model to avoid unrecoverable early errors due to line segmentation. Second, it allows the model to exploit larger bi-dimensional context information to identify the semantic categories, reaching a higher final prediction accuracy. We also explore different training scenarios to show their effect on the performance and we demonstrate that a two-stage learning strategy can make the model reach a higher final prediction accuracy. As far as we know, this work presents the first approach that adopts the transformer networks for named entity recognition in handwritten documents. We achieve the new state-of-the-art performance in the ICDAR 2017 Information Extraction competition using the Esposalles database, for the complete task, even though the proposed technique does not use any dictionaries, language modeling, or post-processing.


翻译:与通常面临文本抄录的传统信息提取方法不同,我们在本文件中建议采用以端到端变压器为基础的方法,共同执行这两项任务。提议的这一方法在段落一级运作,主要有两个好处。首先,它允许模型避免因线条分割而出现无法收回的早期错误。第二,它允许模型利用较大的二维背景信息确定语义类别,达到更高的最终预测准确度。我们还探索不同的培训方案,以显示其对绩效的影响,我们证明两阶段学习战略可以使模型达到更高的最后预测准确度。据我们所知,这项工作提出了第一个在手写文件中采用变压器网络来识别指定实体的方法。我们利用埃斯波萨列斯数据库实现2017年信息抽取竞争中新的状态性能,以完成全部任务,即使拟议的技术没有使用任何字典、语言建模或后处理。

0
下载
关闭预览

相关内容

专知会员服务
53+阅读 · 2020年9月7日
【ACL2020-复旦大学NLP】异构图神经网络的文档摘要提取
专知会员服务
35+阅读 · 2020年5月1日
【新书】Python编程基础,669页pdf
专知会员服务
195+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
Arxiv
5+阅读 · 2021年6月3日
Arxiv
5+阅读 · 2019年11月22日
VIP会员
Top
微信扫码咨询专知VIP会员