图 1手写数学公式,其对应的符号关系树和LaTeX标签
一、研究背景
近年来的深度学习方法[2]将手写数学公式识别视作图像到LaTeX串生成的问题来处理。这种方法使用深度编-解码模型将脱机图片或者联机轨迹端到端的转换为目标LaTeX表达式。但是由于数学公式有着复杂度二维结构:(i)这种方法没有显式利用公式中存在的层次关系;(ii)也不能显式的将公式中的数学符号检测或分割出来。除了基于图像到LaTeX的方式,基于预定义语法规则虽然可以显式的分割数学公式中的手写符号,但是这些方法不能自动地从公式的标记语料中数据驱动地学习到数学语义和层次信息。
图2 G2G与现有识别器对比
二、模型结构
现有深度学习方法主要将手写数学公式识别视作图像到LaTeX串转换的问题来处理,这种方法被称为Image-to-Markup生成。在这种方法下,数学公式识别的范式被定义为:
其中,x是输入数学公式,y是对应的LaTeX表达式。正如前文所述,采用图像或串的形式没有有效利用数学公式中包含的结构信息。因此在该工作中,我们将输入联机数学公式表示成笔画关系图Gx,直接从数据中自动学习目标符号标签图Gy的生成:
图到图的联机数学公式识别框架如下图所示。
图3 模型网络结构
等式右侧,第一、二项为输入笔画关系图的结点和边表示学习损失;二、三项是目标符号标签图的结点与边表示学习损失;最后两项是对输入笔画关系图中子图位置注意和语义感知的损失。
三、实验结果
我们所提出的方法显著地提升了原有方法在CROHME2014 和2016数据集的识别精度,并且显式分割出了联机数学公式中的数学符号。
四、总结与讨论
该工作为手写数学公式识别提供了一个新颖有效的新范式,使得识别过程更加显式,精确。相对于语法方法,识别过程也可以更好的进行数据驱动的学习和训练。但是在脱机数学公式识别时,由于没有书写起落笔信息,输入数学公式的图元提取依然是一个需要解决的问题。此外,减少训练过程中符号级强标记的使用,也会使得识别器朝着实际应用的方向更前一步。
参考文献
[1] Harold Mouchère, Christian Viard-Gaudin, Richard Zanibbi, Utpal Garain: ICFHR2016 CROHME: Competition on Recognition of Online Handwritten Mathematical Expressions. ICFHR 2016: 607-612
[2] Yuntian Deng,Anssi Kanervisto, Jeffrey Ling, Alexander M. Rush: Image-to-Markup Generation with Coarse-to-Fine Attention. ICML 2017: 980-989
审校:连宙辉
发布:金连文
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“G2G” 可以获取《[AAAI 2021]图到图:面向精确可解释的联机手写数学公式识别》专知下载链接索引