表格广泛存在于科技文献、财务报表、报纸杂志等各类文档中,用于紧凑地存储和展现数据,蕴含着大量有用信息。表格识别是表格信息再利用的基础,具有重要的应用价值,也一直是模式识别领域的研究热点之一。随着深度学习的发展,针对表格识别的新研究和新方法纷纷涌现。然而,由于表格应用场景广泛、样式众多、图像质量参差不齐等因素,表格识别领域仍然存在着大量问题亟需解决。为了更好地总结前人工作,为后续研究提供支持,本文围绕表格区域检测、结构识别和内容识别等3个表格识别子任务,从传统方法、深度学习方法等方面,综述该领域国内外的发展历史和最新进展。梳理了表格识别相关数据集及评测标准,并基于主流数据集和标准,分别对表格区域检测、结构识别、表格信息抽取的典型方法进行了性能比较。然后,对比分析了国内相对于国外,在表格识别方面的研究进展与水平。最后,结合表格识别领域目前面临的主要困难与挑战,对未来的研究趋势和技术发展目标进行了展望。

http://www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20220609&flag=1

在大数据时代,高效地存取数据,以及从海量数 据中提取有效信息是各行各业都亟需利用的重要技 术。 表格作为数据的一种重要载体,具有信息精炼集 中、方便体现数据关系等特点,已经在各个行业得到 了广泛应用。 在教育领域中,表格常常会出现在各类 试卷、题目中;在金融领域,表格用来展示和分析数 据;在科学领域,表格用来记录各类实验配置以及结 果;在现实生活中也常常在幻灯片、车站时刻牌上看 到表格。 因此对表格进行区域检测、结构识别乃至对 其中信息进行识别理解都有着广阔的应用前景。 表格在生成或存储过程中往往以图片或 PDF (portable document format)文件的形式存在,会丢失 易于计算机理解的原有结构信息。 若是采用人工手 段对表格进行重新处理录入,会面临效率低下、数据 量大导致出错等问题。 因此,如何让计算机从文档 或图像中自动识别表格、提取信息,成为文档识别领 域一个重要的研究问题。 早期对于表格的识别大多是针对较为简单或模 板化的表格。 从表格的布局结构出发,抽取表格线 条或抽取文本块,然后使用规则方法进行分析,但这 些方法往往泛化能力较差,且难以处理复杂表格。 随着深度学习的发展,无论是机器视觉方面还是自 然语言处理方面都获得了巨大的进展,各种表格识 别的方案相继提出,并有研究者开始尝试对自然场 景下的表格进行处理。 本文将围绕表格的区域检测、表格结构识别和 表格内容识别 3 个表格识别子任务,从传统方法、深 度学习方法等方面,综述该领域国内国外的发展历 史和最新进展,同时对国内国外的研究进行对比,对 未来的趋势和技术发展目标进行展望。

成为VIP会员查看完整内容
37

相关内容

视觉语言多模态预训练综述
专知会员服务
118+阅读 · 2022年7月11日
人脸合成技术综述
专知会员服务
24+阅读 · 2021年11月21日
专知会员服务
68+阅读 · 2021年10月6日
专知会员服务
39+阅读 · 2021年5月18日
专知会员服务
55+阅读 · 2021年4月4日
专知会员服务
69+阅读 · 2021年3月29日
专知会员服务
45+阅读 · 2021年3月19日
专知会员服务
28+阅读 · 2021年2月26日
专知会员服务
103+阅读 · 2020年11月27日
鲁棒模式识别研究进展
专知会员服务
40+阅读 · 2020年8月9日
深度学习视频超分辨率技术概述
专知
0+阅读 · 2022年7月18日
「深度学习事件抽取」最新2022研究综述
专知
5+阅读 · 2022年6月2日
医学知识图谱构建关键技术及研究进展
专知
0+阅读 · 2022年4月27日
人脸合成技术综述
专知
0+阅读 · 2021年11月21日
面向任务型的对话系统研究进展
专知
0+阅读 · 2021年11月17日
知识库问答系统研究进展
专知
4+阅读 · 2021年10月7日
图像修复研究进展综述
专知
18+阅读 · 2021年3月9日
深度学习模型可解释性的研究进展
专知
25+阅读 · 2020年8月1日
事件知识图谱构建研究进展与趋势
THU数据派
99+阅读 · 2019年12月11日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
57+阅读 · 2022年1月5日
Arxiv
10+阅读 · 2018年3月22日
VIP会员
相关VIP内容
视觉语言多模态预训练综述
专知会员服务
118+阅读 · 2022年7月11日
人脸合成技术综述
专知会员服务
24+阅读 · 2021年11月21日
专知会员服务
68+阅读 · 2021年10月6日
专知会员服务
39+阅读 · 2021年5月18日
专知会员服务
55+阅读 · 2021年4月4日
专知会员服务
69+阅读 · 2021年3月29日
专知会员服务
45+阅读 · 2021年3月19日
专知会员服务
28+阅读 · 2021年2月26日
专知会员服务
103+阅读 · 2020年11月27日
鲁棒模式识别研究进展
专知会员服务
40+阅读 · 2020年8月9日
相关资讯
深度学习视频超分辨率技术概述
专知
0+阅读 · 2022年7月18日
「深度学习事件抽取」最新2022研究综述
专知
5+阅读 · 2022年6月2日
医学知识图谱构建关键技术及研究进展
专知
0+阅读 · 2022年4月27日
人脸合成技术综述
专知
0+阅读 · 2021年11月21日
面向任务型的对话系统研究进展
专知
0+阅读 · 2021年11月17日
知识库问答系统研究进展
专知
4+阅读 · 2021年10月7日
图像修复研究进展综述
专知
18+阅读 · 2021年3月9日
深度学习模型可解释性的研究进展
专知
25+阅读 · 2020年8月1日
事件知识图谱构建研究进展与趋势
THU数据派
99+阅读 · 2019年12月11日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员