表格识别技术研究进展

2022 年 7 月 4 日 专知



表格广泛存在于科技文献、财务报表、报纸杂志等各类文档中,用于紧凑地存储和展现数据,蕴含着大量有用信息。表格识别是表格信息再利用的基础,具有重要的应用价值,也一直是模式识别领域的研究热点之一。随着深度学习的发展,针对表格识别的新研究和新方法纷纷涌现。然而,由于表格应用场景广泛、样式众多、图像质量参差不齐等因素,表格识别领域仍然存在着大量问题亟需解决。为了更好地总结前人工作,为后续研究提供支持,本文围绕表格区域检测、结构识别和内容识别等3个表格识别子任务,从传统方法、深度学习方法等方面,综述该领域国内外的发展历史和最新进展。梳理了表格识别相关数据集及评测标准,并基于主流数据集和标准,分别对表格区域检测、结构识别、表格信息抽取的典型方法进行了性能比较。然后,对比分析了国内相对于国外,在表格识别方面的研究进展与水平。最后,结合表格识别领域目前面临的主要困难与挑战,对未来的研究趋势和技术发展目标进行了展望。

http://www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20220609&flag=1

在大数据时代,高效地存取数据,以及从海量数 据中提取有效信息是各行各业都亟需利用的重要技 术。表格作为数据的一种重要载体,具有信息精炼集 中、方便体现数据关系等特点,已经在各个行业得到 了广泛应用。在教育领域中,表格常常会出现在各类 试卷、题目中;在金融领域,表格用来展示和分析数 据;在科学领域,表格用来记录各类实验配置以及结 果;在现实生活中也常常在幻灯片、车站时刻牌上看 到表格。因此对表格进行区域检测、结构识别乃至对 其中信息进行识别理解都有着广阔的应用前景。表格在生成或存储过程中往往以图片或 PDF (portable document format)文件的形式存在,会丢失 易于计算机理解的原有结构信息。若是采用人工手 段对表格进行重新处理录入,会面临效率低下、数据 量大导致出错等问题。因此,如何让计算机从文档 或图像中自动识别表格、提取信息,成为文档识别领 域一个重要的研究问题。早期对于表格的识别大多是针对较为简单或模 板化的表格。从表格的布局结构出发,抽取表格线 条或抽取文本块,然后使用规则方法进行分析,但这 些方法往往泛化能力较差,且难以处理复杂表格。随着深度学习的发展,无论是机器视觉方面还是自 然语言处理方面都获得了巨大的进展,各种表格识 别的方案相继提出,并有研究者开始尝试对自然场 景下的表格进行处理。本文将围绕表格的区域检测、表格结构识别和 表格内容识别 3 个表格识别子任务,从传统方法、深 度学习方法等方面,综述该领域国内国外的发展历 史和最新进展,同时对国内国外的研究进行对比,对 未来的趋势和技术发展目标进行展望。



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“表格识别” 就可以获取表格识别技术研究进展》专知下载链接

                       
专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取100000+AI(AI与军事、医药、公安等)主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取100000+AI主题知识资料
登录查看更多
0

相关内容

「新一代知识图谱关键技术」最新2022进展综述
专知会员服务
192+阅读 · 2022年9月3日
中文预训练模型研究进展
专知会员服务
77+阅读 · 2022年7月21日
医学知识图谱构建关键技术及研究进展
专知会员服务
43+阅读 · 2022年4月27日
专知会员服务
68+阅读 · 2021年10月6日
专知会员服务
69+阅读 · 2021年5月21日
专知会员服务
55+阅读 · 2021年4月4日
专知会员服务
69+阅读 · 2021年3月29日
专知会员服务
45+阅读 · 2021年3月19日
自动文本摘要研究综述
专知会员服务
67+阅读 · 2021年1月31日
基于深度学习的多标签生成研究进展
专知会员服务
141+阅读 · 2020年4月25日
中文预训练模型研究进展
专知
7+阅读 · 2022年7月22日
医学知识图谱构建关键技术及研究进展
专知
0+阅读 · 2022年4月27日
「图分类研究」最新2022综述
专知
5+阅读 · 2022年2月13日
「知识图谱嵌入技术研究」最新2022综述
专知
5+阅读 · 2022年2月5日
「图神经网络东」最新2022综述
专知
9+阅读 · 2022年1月9日
图像修复研究进展综述
专知
18+阅读 · 2021年3月9日
【知识图谱】医学知识图谱构建技术与研究进展
产业智能官
44+阅读 · 2017年11月16日
医学知识图谱构建技术与研究进展
人工智能学家
17+阅读 · 2017年11月11日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年9月10日
Arxiv
15+阅读 · 2021年7月14日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
22+阅读 · 2018年2月14日
VIP会员
相关VIP内容
「新一代知识图谱关键技术」最新2022进展综述
专知会员服务
192+阅读 · 2022年9月3日
中文预训练模型研究进展
专知会员服务
77+阅读 · 2022年7月21日
医学知识图谱构建关键技术及研究进展
专知会员服务
43+阅读 · 2022年4月27日
专知会员服务
68+阅读 · 2021年10月6日
专知会员服务
69+阅读 · 2021年5月21日
专知会员服务
55+阅读 · 2021年4月4日
专知会员服务
69+阅读 · 2021年3月29日
专知会员服务
45+阅读 · 2021年3月19日
自动文本摘要研究综述
专知会员服务
67+阅读 · 2021年1月31日
基于深度学习的多标签生成研究进展
专知会员服务
141+阅读 · 2020年4月25日
相关资讯
中文预训练模型研究进展
专知
7+阅读 · 2022年7月22日
医学知识图谱构建关键技术及研究进展
专知
0+阅读 · 2022年4月27日
「图分类研究」最新2022综述
专知
5+阅读 · 2022年2月13日
「知识图谱嵌入技术研究」最新2022综述
专知
5+阅读 · 2022年2月5日
「图神经网络东」最新2022综述
专知
9+阅读 · 2022年1月9日
图像修复研究进展综述
专知
18+阅读 · 2021年3月9日
【知识图谱】医学知识图谱构建技术与研究进展
产业智能官
44+阅读 · 2017年11月16日
医学知识图谱构建技术与研究进展
人工智能学家
17+阅读 · 2017年11月11日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员