Tables are information-rich structured objects in document images. While significant work has been done in localizing tables as graphic objects in document images, only limited attempts exist on table structure recognition. Most existing literature on structure recognition depends on extraction of meta-features from the PDF document or on the optical character recognition (OCR) models to extract low-level layout features from the image. However, these methods fail to generalize well because of the absence of meta-features or errors made by the OCR when there is a significant variance in table layouts and text organization. In our work, we focus on tables that have complex structures, dense content, and varying layouts with no dependency on meta-features and/or OCR. We present an approach for table structure recognition that combines cell detection and interaction modules to localize the cells and predict their row and column associations with other detected cells. We incorporate structural constraints as additional differential components to the loss function for cell detection. We empirically validate our method on the publicly available real-world datasets - ICDAR-2013, ICDAR-2019 (cTDaR) archival, UNLV, SciTSR, SciTSR-COMP, TableBank, and PubTabNet. Our attempt opens up a new direction for table structure recognition by combining top-down (table cells detection) and bottom-up (structure recognition) cues in visually understanding the tables.


翻译:虽然在作为文件图像中的图形对象的地方化表格方面做了大量工作,但在表格结构识别方面仅进行了有限的尝试。关于结构识别的现有文献大多取决于从 PDF 文档中提取元特征或光学字符识别模型,以便从图像中提取低层次布局特征。然而,这些方法未能加以概括,因为没有元特征或错误,因为OCR在表格布局和文本组织存在显著差异时没有采用元特征或错误。在我们的工作中,我们侧重于结构结构复杂、内容密集和布局不依赖于元特性和/或OCR的表格。我们提出了一个表格结构识别方法,将细胞检测和互动模块结合起来,以便从图像中提取低层次的布局特征特征特征特征。我们把结构性限制作为损失检测功能的额外差异组成部分纳入。我们从经验上验证了在公开存在的真实世界数据集 - ICDAR- 2013、 ICDAR-2019 (TDAR-20R) 上具有复杂结构、不依赖于元特点和/或 ORCR 的布局结构。我们提出了一种方法,将单元格检测模块和图式图式图式图式结构的图像识别系统,通过我们的上图式图式识别和图式图式图式图式图式识别。

2
下载
关闭预览

相关内容

3D目标检测进展综述
专知会员服务
191+阅读 · 2020年4月24日
专知会员服务
60+阅读 · 2020年3月19日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
知识图谱本体结构构建论文合集
专知会员服务
106+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
LibRec 精选:从0开始构建RNN网络
LibRec智能推荐
5+阅读 · 2019年5月31日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
上百份文字的检测与识别资源,包含数据集、code和paper
数据挖掘入门与实战
17+阅读 · 2017年12月7日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Sparsifying Neural Network Connections for Face Recognition
统计学习与视觉计算组
7+阅读 · 2017年6月10日
Arxiv
0+阅读 · 2020年12月1日
Arxiv
7+阅读 · 2018年1月24日
Arxiv
3+阅读 · 2017年11月12日
VIP会员
相关资讯
LibRec 精选:从0开始构建RNN网络
LibRec智能推荐
5+阅读 · 2019年5月31日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
上百份文字的检测与识别资源,包含数据集、code和paper
数据挖掘入门与实战
17+阅读 · 2017年12月7日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Sparsifying Neural Network Connections for Face Recognition
统计学习与视觉计算组
7+阅读 · 2017年6月10日
Top
微信扫码咨询专知VIP会员