This paper presents our solution for ICDAR 2021 competition on scientific literature parsing taskB: table recognition to HTML. In our method, we divide the table content recognition task into foursub-tasks: table structure recognition, text line detection, text line recognition, and box assignment.Our table structure recognition algorithm is customized based on MASTER [1], a robust image textrecognition algorithm. PSENet [2] is used to detect each text line in the table image. For text linerecognition, our model is also built on MASTER. Finally, in the box assignment phase, we associatedthe text boxes detected by PSENet with the structure item reconstructed by table structure prediction,and fill the recognized content of the text line into the corresponding item. Our proposed methodachieves a 96.84% TEDS score on 9,115 validation samples in the development phase, and a 96.32%TEDS score on 9,064 samples in the final evaluation phase.


翻译:本文介绍了我们对科学文献分析任务B的 ICDAR 2021 科学文献竞赛的解决方案: HTML 的表识别。 在方法上,我们将表格内容识别任务分为四个子任务: 表格结构识别、 文本线检测、 文本线识别和框分配。 我们的表格结构识别算法基于一个强大的图像文本识别算法MASTER [1], 一种强大的图像文本识别算法。 PSENet [2] 用于检测表格图像中的每条文本行。 关于文本识别, 我们的模型也建在 MASTER 上。 最后, 在框分配阶段, 我们把 PSENet 检测到的文本框与通过表格结构预测重建的结构项目联系起来, 并在相应项目中填写了文本线的公认内容。 我们提议的方法在开发阶段的9 115 个验证样本上取得了96.84%的TEDS 分数, 在最后评估阶段的9 064 个样本上达到了96.32%的TES分。

0
下载
关闭预览

相关内容

ICDAR是一个非常成功的旗舰会议系列,是文献分析界研究人员、科学家和实践者的最大和最重要的国际会议。该会议得到了IAPR-TC 10/11的认可,成立于近30年前。第15届文件分析与识别国际会议(ICDAR 2019)由澳大利亚悉尼科技大学(UTS)主办,并在悉尼国际会议中心(ICC)举行。接受的论文由会议出版服务(CPS)出版,并提交给IEEE Xplore数字图书馆。官网链接:http://icdar2019.org/
专知会员服务
60+阅读 · 2020年3月19日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
revelation of MONet
CreateAMind
5+阅读 · 2019年6月8日
IEEE | 顶级期刊IoTJ物联网专刊诚邀稿件
Call4Papers
7+阅读 · 2019年5月20日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
CCF C类 | DSAA 2019 诚邀稿件
Call4Papers
6+阅读 · 2019年5月13日
人工智能 | SCI期刊专刊/国际会议信息7条
Call4Papers
7+阅读 · 2019年3月12日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
CCF B类期刊IPM专刊截稿信息1条
Call4Papers
3+阅读 · 2018年10月11日
李渊:GIS、GPS旅游者行为分析
科学出版社
4+阅读 · 2018年1月8日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Arxiv
20+阅读 · 2020年6月8日
SwapText: Image Based Texts Transfer in Scenes
Arxiv
4+阅读 · 2020年3月18日
Arxiv
3+阅读 · 2017年11月12日
VIP会员
相关VIP内容
专知会员服务
60+阅读 · 2020年3月19日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
相关资讯
revelation of MONet
CreateAMind
5+阅读 · 2019年6月8日
IEEE | 顶级期刊IoTJ物联网专刊诚邀稿件
Call4Papers
7+阅读 · 2019年5月20日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
CCF C类 | DSAA 2019 诚邀稿件
Call4Papers
6+阅读 · 2019年5月13日
人工智能 | SCI期刊专刊/国际会议信息7条
Call4Papers
7+阅读 · 2019年3月12日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
CCF B类期刊IPM专刊截稿信息1条
Call4Papers
3+阅读 · 2018年10月11日
李渊:GIS、GPS旅游者行为分析
科学出版社
4+阅读 · 2018年1月8日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Top
微信扫码咨询专知VIP会员