Recent grid-based document representations like BERTgrid allow the simultaneous encoding of the textual and layout information of a document in a 2D feature map so that state-of-the-art image segmentation and/or object detection models can be straightforwardly leveraged to extract key information from documents. However, such methods have not achieved comparable performance to state-of-the-art sequence- and graph-based methods such as LayoutLM and PICK yet. In this paper, we propose a new multi-modal backbone network by concatenating a BERTgrid to an intermediate layer of a CNN model, where the input of CNN is a document image and the BERTgrid is a grid of word embeddings, to generate a more powerful grid-based document representation, named ViBERTgrid. Unlike BERTgrid, the parameters of BERT and CNN in our multimodal backbone network are trained jointly. Our experimental results demonstrate that this joint training strategy improves significantly the representation ability of ViBERTgrid. Consequently, our ViBERTgrid-based key information extraction approach has achieved state-of-the-art performance on real-world datasets.


翻译:BERTGrid等最近的基于网格的文件表述方式允许将文件文本和布局信息同时编码在2D特征地图中,这样可以直接利用最新图像分割和/或物体探测模型来从文件中获取关键信息,但是,这些方法没有达到与最新的最新序列法和基于图形的方法,如版图LM和PICK的类似性能。在本文中,我们提出一个新的多模式主干网,将一个BERTGrid转换成CNN模型的中间层,其中CNN输入的是文件图像,BERTGrid是一个文字嵌入网,以产生更强大的基于网格的文件代表,名为ViBERTGrid。与BERTrid不同,我们的多式联运主干网中BERT和CNN的参数是联合培训的。我们的实验结果表明,这一联合培训战略大大提高了ViBERTGrid的代表性。因此,我们的ViBERTrid关键信息提取方法在现实世界数据集中达到了最先进的性能。

3
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
【图神经网络导论】Intro to Graph Neural Networks,176页ppt
专知会员服务
125+阅读 · 2021年6月4日
专知会员服务
37+阅读 · 2021年5月14日
数据科学导论,54页ppt,Introduction to Data Science
专知会员服务
41+阅读 · 2020年7月27日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
【泡泡一分钟】高动态环境的语义单目SLAM
泡泡机器人SLAM
5+阅读 · 2019年3月27日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
论文浅尝 | Distant Supervision for Relation Extraction
开放知识图谱
4+阅读 · 2017年12月25日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
3+阅读 · 2019年8月19日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
【泡泡一分钟】高动态环境的语义单目SLAM
泡泡机器人SLAM
5+阅读 · 2019年3月27日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
论文浅尝 | Distant Supervision for Relation Extraction
开放知识图谱
4+阅读 · 2017年12月25日
Top
微信扫码咨询专知VIP会员