Understanding documents from their visual snapshots is an emerging problem that requires both advanced computer vision and NLP methods. The recent advance in OCR enables the accurate recognition of text blocks, yet it is still challenging to extract key information from documents due to the diversity of their layouts. Although recent studies on pre-trained language models show the importance of incorporating layout information on this task, the conjugation of texts and their layouts still follows the style of BERT optimized for understanding the 1D text. This implies there is room for further improvement considering the 2D nature of text layouts. This paper introduces a pre-trained language model, BERT Relying On Spatiality (BROS), which effectively utilizes the information included in individual text blocks and their layouts. Specifically, BROS encodes spatial information by utilizing relative positions and learns spatial dependencies between OCR blocks with a novel area-masking strategy. These two novel approaches lead to an efficient encoding of spatial layout information highlighted by the robust performance of BROS under low-resource environments. We also introduce a general-purpose parser that can be combined with BROS to extract key information even when there is no order information between text blocks. BROS shows its superiority on four public benchmarks -- FUNSD, SROIE*, CORD, and SciTSR -- and its robustness in practical cases where order information of text blocks is not available. Further experiments with a varying number of training examples demonstrate the high training efficiency of our approach. Our code will be open to the public.


翻译:从视觉快照中了解文件是一个新出现的问题,需要先进的计算机视野和NLP方法来理解文件。 OCR最近的进展使得能够准确识别文本块,然而,由于文本块的布局多种多样,从文件中提取关键信息仍具有挑战性。 尽管最近对预先培训的语言模型的研究显示,在这项工作中纳入布局信息十分重要,但文本及其布局的融合仍然遵循BERT最优化的风格,以了解1D文本。这意味着考虑到文本布局的2D性质,仍有进一步改进的余地。本文介绍了预先培训的语言模型,BERT Replish on Spaceity(BRO),该模型有效地利用单个文本块及其布局中包含的信息。具体地说,BROS通过相对位置编码空间信息信息,并学习OCRCR各块之间空间依赖性的新区域版战略。这两种新做法导致空间布局信息的有效调和空间布局信息相匹配,因为BROSBSI在低资源环境中的稳健性做法。我们还引入了一个通用的平面拼图,可以与BROSci Rebly Reduding on evely regnial real deal deal development a ex ex ex bese regregal deal be the Slaview Stal destral destral destral degal degild.

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
斯坦福2020硬课《分布式算法与优化》
专知会员服务
122+阅读 · 2020年5月6日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
语义分割 | context relation
极市平台
8+阅读 · 2019年2月9日
【泡泡一分钟】基于3D激光雷达地图的立体相机定位
泡泡机器人SLAM
4+阅读 · 2019年1月14日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
4+阅读 · 2019年9月5日
Arxiv
5+阅读 · 2018年1月18日
VIP会员
相关VIP内容
斯坦福2020硬课《分布式算法与优化》
专知会员服务
122+阅读 · 2020年5月6日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
相关资讯
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
语义分割 | context relation
极市平台
8+阅读 · 2019年2月9日
【泡泡一分钟】基于3D激光雷达地图的立体相机定位
泡泡机器人SLAM
4+阅读 · 2019年1月14日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员