想自动批改作业?这个算法来了!用于算术习题自动批改的结构文本精确识别方法

2020 年 3 月 16 日 CVer

点击上方“CVer”,选择加"星标"或“置顶”

重磅干货,第一时间送达

本文授权转载自:CSIG文档图像分析与识别专委会


       本文简要介绍AAAI2020年录用的论文“Accurate Structured-Text Spotting for Arithmetical Exercise Correction”的主要工作。 该论文提出了一个算术习题批改系统,对算术习题进行检测,识别和评估,并构建了一个涵盖40种常见算术习题,共5300张图片的数据集AEC-5k。  

一、研究背景  
       在小学教育中,教师需要花大量的时间和精力在习题批改上。 为了提高教学效率,该论文提出了一个算术习题批改系统,对40种常见的小 学算术习题进行检测,识别和评估,如图1所示。 该任务具有三个难点: 1、算术习题包含了印刷体和手写体文本,并具有特殊的算术模式(如多行,分数); 2、手写体文本往往具有锯齿状的边界且各行文本缠乱在一起; 3、算术习题的语义内容可能会出现算术错误(如1+1=3),使得识别模型不能过于依赖语义信息。 为了解决这些难点,该论文利用算术习题的三个特性(图2所示):A 、边界不明确;B 、算术模式具有局部相关性;C 、算术符号具有全局无关性,设计了检测,识别和评估这三个模型,组成了算术习题批改系统。

图1 算术习题批改系统

图2 算术习题的三个特性
 
二、算术习题批改系统原理简述  
       系统设计主要有三个任务: 1、设计一个检测模型用于定位图片中所有算术习题; 2、设计一个识别模型用于解析所有的算术习题; 3、建立一个算术逻辑来评估习题的结果。 图3为系统概览。

图3 算术习题批改系统模型概览
 
1.检测模型
       多数主流的检测模型如SSD[1]、Faster-RCNN[2]通过先设置许多预定大小的长方形锚框(Anchor-box),再将锚框回归到检测目标的位置。锚框的大小和宽高比需要根据检测目标特性进行谨慎的设计。然而,不同的算术习题以及多样的书写风格使得难以设计合理的锚框参数。为此,论文作者基于CenterNet[3]设计了检测模型,避免了使用锚框且符合算术习题的边界不明确特性。
       区别于多数检测模型,该模型输出一个三元的预测,包括左上角、中间和右下角关键点。两角关键点用于生成候选框,中间关键点用于确认框的有效性。由于水平方向的回归偏差仍然很可能得到语义完整的算术习题,如图4所示,蓝色框的内容是仍可以当作一条完整算术习题。为此,论文作者提出Horizontal-focal Loss Function,如图5所示,引入一个 参数 加大对模型水平方向回归偏差的惩罚程度。

图4检测样本示例

图5 Horizontal-focal loss function
 
2.识别模型
       论文作者基于序列预测模型NMT[4]提出了算术神经机器翻译模型(ANMT)。向ANMT模型输入经卷积神经网络提取的特征x后,模型预测出对应的序列y。模型运用了注意力机制,数学表达如图6所示。

图6 识别模型注意力机制的数学表达
 
       针对算术习题的模式局部相关性,如换行符的下一个符号有很大概率是等号,论文作者用多向LSTM代替单方向的LSTM来建模这种上下文信息。同时,在每一行的开头插入一个参数可训练的隐藏状态用来表示垂直方向的位置信息,以便模型建模各行间的顺序。
       针对算术习题中符号的全局无关性,如算术习题中的语义内容出现算术错误(1+1=3),数字、字母的出现具有随机性且无语义联系,论文作者在原模型的基础上加入了一个控制门,以控制上下文和视觉特征对当前时刻预测符号的影响比例。此外,论文作者还利用了掩膜对过去时刻注意力机制权重较高的特征进行掩盖,使其不影响其他符号的预测。对原模型修改部分的数学表达如图7所示。

图7  引入控制门后的模型数学表达式
 
3.评估方法
       论文作者将算术习题分为两大类,自包含和共存表达式,具体如图3评估分支所示。对于第一种表达式,评估模型先分别计算等号两端表达式的值,再检查两个值是否相等。对于第二种表达式,模型计算问题,中间运算和最终结果是否一致。
 
三、主要实验结果  
       如图8所示,论文进行了检测模型的对比实验。 为Horizontal-focal Loss Function中的参数。当=1时,即为原来的CenterNet模型。对比发现,=2时,检测模型在各项指标上表现最好。MS表示输入为多尺度的图片,这可以使得检测性能各项指标再提高约3个百分点。

图8 检测模型对比实验

       如图9所示,论文分别比较了不使用多向LSTM,不使用上下文控制门,不使用算术注意力机制的模型结果,端到端表示未使用词典的ICDAR15通用协议的识别结果,Accuracy表示批改结果正确率。论文还使用了缩放、填充和旋转三种方法生成多张图片输入系统,比较各个方法所带来的提升。AC表示三种方法均使用。实验结果表明,使用三种生成方法且应用多向LSTM,使用上下文控制门和算术注意力机制的模型性能最好。

图9 识别模型对比实验

       论文还与主流的方法进行比较,实验结果如图10所示。论文提出的方法在AEC-5k数据集上取得最好的结果。
 
图10 与主流方法的比较
 
四、总结  
      这篇论文提出了一个端到端的算术习题批改系统,包括检测、识别和评估三个模型。根据算术习题的三个特性,论文提出了基于现有模型的改进方法,取得了超越先前方法的结果。论文还发布了AEC-5k数据集,涵盖40种常见算术习题,共5300张图片。

 

参考文献  
[1]Liu, W.; Anguelov, D.; Erhan, D.; Szegedy, C.; Reed, S.; Fu, C.-Y.;and Berg, A. C. 2016. Ssd: Single shot multibox detector. In ECCV, 21–37.Springer.
[2]Ren, S.; He, K.; Girshick, R.; and Sun, J. 2015. Faster r- cnn:Towards real-time object detection with region proposal networks. In NeurIPS, 91–99.
[3]Duan, K.; Bai, S.; Xie, L.; Qi, H.; Huang, Q.; and Tian, Q. 2019.Centernet: Object detection with keypoint triplets. arXiv preprintarXiv:1904.08189.
[4]Bahdanau, D.; Cho, K.; and Bengio, Y. 2014. Neural machine translation by jointly learning to align and translate. arXiv preprintarXiv:1409.0473.


原文作者:  Yiqing Hu,Yan Zheng,Hao Liu,Deqiang Jiang,Yinsong Liu,Bo Ren

撰稿:李 喆   编排: 高 学

审校:殷 飞  发布:金连文


免责声明: 1 )本文仅代表撰稿者观点,个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。( 2 )本文观点不代表本公众号立场。  


推荐阅读


2020年AI算法岗求职群来了(含准备攻略、面试经验、内推和学习资料等)


重磅!CVer-OCR 交流群已成立


扫码添加CVer助手,可申请加入CVer-OCR 微信交流群,目前已满300+人,旨在交流OCR、场景文本检测、场景文本识别等内容。


一定要备注:研究方向+地点+学校/公司+昵称(如OCR+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲长按加群


▲长按关注我们

麻烦给我一个在看!

登录查看更多
2

相关内容

论文(Paper)是专知网站核心资料文档,包括全球顶级期刊、顶级会议论文,及全球顶尖高校博士硕士学位论文。重点关注中国计算机学会推荐的国际学术会议和期刊,CCF-A、B、C三类。通过人机协作方式,汇编、挖掘后呈现于专知网站。
【干货书】图形学基础,427页pdf
专知会员服务
143+阅读 · 2020年7月12日
【ICML2020-西电】用于语言生成的递归层次主题引导RNN
专知会员服务
21+阅读 · 2020年6月30日
最新《自然场景中文本检测与识别》综述论文,26页pdf
专知会员服务
69+阅读 · 2020年6月10日
少标签数据学习,54页ppt
专知会员服务
194+阅读 · 2020年5月22日
专知会员服务
72+阅读 · 2020年5月21日
【干货书】R语言书: 编程和统计的第一课程,
专知会员服务
106+阅读 · 2020年5月9日
【干货书】流畅Python,766页pdf,中英文版
专知会员服务
223+阅读 · 2020年3月22日
 图像内容自动描述技术综述
专知会员服务
84+阅读 · 2019年11月17日
资源 | 《自然语言处理综论》中文版 PDF 高清版
AI科技评论
103+阅读 · 2019年2月23日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
【质量检测】机器视觉表面缺陷检测综述
产业智能官
30+阅读 · 2018年9月24日
专栏 | NLP概述和文本自动分类算法详解
机器之心
12+阅读 · 2018年7月24日
NLP概述和文本自动分类算法详解 | 公开课笔记
人工智能头条
5+阅读 · 2018年7月24日
吴恩达机器学习课程
平均机器
9+阅读 · 2018年2月5日
A Survey on Edge Intelligence
Arxiv
49+阅读 · 2020年3月26日
Arxiv
3+阅读 · 2012年11月20日
VIP会员
相关VIP内容
【干货书】图形学基础,427页pdf
专知会员服务
143+阅读 · 2020年7月12日
【ICML2020-西电】用于语言生成的递归层次主题引导RNN
专知会员服务
21+阅读 · 2020年6月30日
最新《自然场景中文本检测与识别》综述论文,26页pdf
专知会员服务
69+阅读 · 2020年6月10日
少标签数据学习,54页ppt
专知会员服务
194+阅读 · 2020年5月22日
专知会员服务
72+阅读 · 2020年5月21日
【干货书】R语言书: 编程和统计的第一课程,
专知会员服务
106+阅读 · 2020年5月9日
【干货书】流畅Python,766页pdf,中英文版
专知会员服务
223+阅读 · 2020年3月22日
 图像内容自动描述技术综述
专知会员服务
84+阅读 · 2019年11月17日
相关资讯
资源 | 《自然语言处理综论》中文版 PDF 高清版
AI科技评论
103+阅读 · 2019年2月23日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
【质量检测】机器视觉表面缺陷检测综述
产业智能官
30+阅读 · 2018年9月24日
专栏 | NLP概述和文本自动分类算法详解
机器之心
12+阅读 · 2018年7月24日
NLP概述和文本自动分类算法详解 | 公开课笔记
人工智能头条
5+阅读 · 2018年7月24日
吴恩达机器学习课程
平均机器
9+阅读 · 2018年2月5日
Top
微信扫码咨询专知VIP会员