想自动批改作业？这个算法来了！用于算术习题自动批改的结构文本精确识别方法

2020 年 3 月 16 日 CVer

点击上方“CVer”，选择加"星标"或“置顶”

重磅干货，第一时间送达

本文授权转载自：CSIG文档图像分析与识别专委会

本文简要介绍AAAI2020年录用的论文“Accurate Structured-Text Spotting for Arithmetical Exercise Correction”的主要工作。该论文提出了一个算术习题批改系统，对算术习题进行检测，识别和评估，并构建了一个涵盖40种常见算术习题，共5300张图片的数据集AEC-5k。

一、研究背景

在小学教育中，教师需要花大量的时间和精力在习题批改上。为了提高教学效率，该论文提出了一个算术习题批改系统，对40种常见的小学算术习题进行检测，识别和评估，如图1所示。该任务具有三个难点： 1、算术习题包含了印刷体和手写体文本，并具有特殊的算术模式（如多行，分数）； 2、手写体文本往往具有锯齿状的边界且各行文本缠乱在一起； 3、算术习题的语义内容可能会出现算术错误（如1+1=3），使得识别模型不能过于依赖语义信息。为了解决这些难点，该论文利用算术习题的三个特性（图2所示）：A 、边界不明确；B 、算术模式具有局部相关性；C 、算术符号具有全局无关性，设计了检测，识别和评估这三个模型，组成了算术习题批改系统。

图1 算术习题批改系统

图2 算术习题的三个特性

二、算术习题批改系统原理简述

系统设计主要有三个任务： 1、设计一个检测模型用于定位图片中所有算术习题； 2、设计一个识别模型用于解析所有的算术习题； 3、建立一个算术逻辑来评估习题的结果。图3为系统概览。

图3 算术习题批改系统模型概览

1.检测模型

多数主流的检测模型如SSD[1]、Faster-RCNN[2]通过先设置许多预定大小的长方形锚框（Anchor-box），再将锚框回归到检测目标的位置。锚框的大小和宽高比需要根据检测目标特性进行谨慎的设计。然而，不同的算术习题以及多样的书写风格使得难以设计合理的锚框参数。为此，论文作者基于CenterNet[3]设计了检测模型，避免了使用锚框且符合算术习题的边界不明确特性。

区别于多数检测模型，该模型输出一个三元的预测，包括左上角、中间和右下角关键点。两角关键点用于生成候选框，中间关键点用于确认框的有效性。由于水平方向的回归偏差仍然很可能得到语义完整的算术习题，如图4所示，蓝色框的内容是仍可以当作一条完整算术习题。为此，论文作者提出Horizontal-focal Loss Function，如图5所示，引入一个

参数加大对模型水平方向回归偏差的惩罚程度。

图4检测样本示例

图5 Horizontal-focal loss function

2.识别模型

论文作者基于序列预测模型NMT[4]提出了算术神经机器翻译模型（ANMT）。向ANMT模型输入经卷积神经网络提取的特征x后，模型预测出对应的序列y。模型运用了注意力机制，数学表达如图6所示。

图6 识别模型注意力机制的数学表达

针对算术习题的模式局部相关性，如换行符的下一个符号有很大概率是等号，论文作者用多向LSTM代替单方向的LSTM来建模这种上下文信息。同时，在每一行的开头插入一个参数可训练的隐藏状态用来表示垂直方向的位置信息，以便模型建模各行间的顺序。

针对算术习题中符号的全局无关性，如算术习题中的语义内容出现算术错误（1+1=3），数字、字母的出现具有随机性且无语义联系，论文作者在原模型的基础上加入了一个控制门，以控制上下文和视觉特征对当前时刻预测符号的影响比例。此外，论文作者还利用了掩膜对过去时刻注意力机制权重较高的特征进行掩盖，使其不影响其他符号的预测。对原模型修改部分的数学表达如图7所示。

图7 引入控制门后的模型数学表达式

3.评估方法

论文作者将算术习题分为两大类，自包含和共存表达式，具体如图3评估分支所示。对于第一种表达式，评估模型先分别计算等号两端表达式的值，再检查两个值是否相等。对于第二种表达式，模型计算问题，中间运算和最终结果是否一致。

三、主要实验结果

如图8所示，论文进行了检测模型的对比实验。

为Horizontal-focal Loss Function中的参数。当

=1时，即为原来的CenterNet模型。对比发现，

=2时，检测模型在各项指标上表现最好。MS表示输入为多尺度的图片，这可以使得检测性能各项指标再提高约3个百分点。

图8 检测模型对比实验

如图9所示，论文分别比较了不使用多向LSTM，不使用上下文控制门，不使用算术注意力机制的模型结果，端到端表示未使用词典的ICDAR15通用协议的识别结果，Accuracy表示批改结果正确率。论文还使用了缩放、填充和旋转三种方法生成多张图片输入系统，比较各个方法所带来的提升。AC表示三种方法均使用。实验结果表明，使用三种生成方法且应用多向LSTM，使用上下文控制门和算术注意力机制的模型性能最好。

图9 识别模型对比实验

论文还与主流的方法进行比较，实验结果如图10所示。论文提出的方法在AEC-5k数据集上取得最好的结果。

图10 与主流方法的比较

四、总结

这篇论文提出了一个端到端的算术习题批改系统，包括检测、识别和评估三个模型。根据算术习题的三个特性，论文提出了基于现有模型的改进方法，取得了超越先前方法的结果。论文还发布了AEC-5k数据集，涵盖40种常见算术习题，共5300张图片。

参考文献

[1]Liu, W.; Anguelov, D.; Erhan, D.; Szegedy, C.; Reed, S.; Fu, C.-Y.;and Berg, A. C. 2016. Ssd: Single shot multibox detector. In ECCV, 21–37.Springer.

[2]Ren, S.; He, K.; Girshick, R.; and Sun, J. 2015. Faster r- cnn:Towards real-time object detection with region proposal networks. In NeurIPS, 91–99.

[3]Duan, K.; Bai, S.; Xie, L.; Qi, H.; Huang, Q.; and Tian, Q. 2019.Centernet: Object detection with keypoint triplets. arXiv preprintarXiv:1904.08189.

[4]Bahdanau, D.; Cho, K.; and Bengio, Y. 2014. Neural machine translation by jointly learning to align and translate. arXiv preprintarXiv:1409.0473.

原文作者: Yiqing Hu,Yan Zheng,Hao Liu,Deqiang Jiang,Yinsong Liu,Bo Ren

撰稿：李喆编排：高学

审校：殷飞发布：金连文

免责声明： （ 1 ）本文仅代表撰稿者观点，个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（ 2 ）本文观点不代表本公众号立场。

重磅！CVer-OCR 交流群已成立

扫码添加CVer助手，可申请加入CVer-OCR 微信交流群，目前已满300+人，旨在交流OCR、场景文本检测、场景文本识别等内容。

一定要备注：研究方向+地点+学校/公司+昵称（如OCR+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群