CCAI 2019 | 白翔:经典算法与深度学习相结合,解决不规则文字处理问题

2019 年 8 月 23 日 中国人工智能学会

CCAI 2019

2019年中国人工智能大会(Chinese Congress on Artificial Intelligence 2019,简称“CCAI 2019”)将于在9月21日-22日在青岛胶州召开。白翔教授将出席大会并担任人工智能青年论坛共同主席。

白翔,华中科技大学电子信息与通信学院教授,博士生导师,国家防伪工程中心副主任。担任中国计算机学会计算机视觉专委会(CCF-CV)常务委员,中国图像图形学学会理事,同时担任国际期刊编委或客座编辑。主要从事计算机视觉与模式识别,具体包括目标识别、形状分析、自然场景文字识别及智能交通系统等领域的研究。不规则文字检测和识别一直是文字识别方向研究的难点,它在自然场景图像中的文字识别具有重要的应用。白翔教授在不规则文字的识别、定位和检测三个研究方向上有着丰富经验,他将经典算法与深度学习相结合,获得了惊人的效果。


 

不规则文字识别

工业界中常用的序列识别模型SRN(Sequence Recognition Network)是不能处理文字发生形变或者弯曲的情况,会导致各类识别错误。 针对不规则文字识别问题,白翔教授团队提出了ASTER模型,解决的了对于场景里有形变或方向变化的文字识别问题。 ASTER是一个简单且实用的方法,就是先将有形变的文字矫正成规则的文字,再使用SRN进行识别。 可以认为ASTER的网络由两部分组成,前面部分是空间变换网络STN (Spatial Transform Network)做矫正,后面是SRN网络做识别,形成任务共享。 在加入了STN以后,识别器的性能十分有竞争力,在不规则文字测试集上有很大提升。
白翔教授将ASTER算法进行的应用测试,发现该算法对文字定位十分准确,尤其在英文的识别上十分稳定。


 

不规则文字定位

对于不规则文字定位问题,白翔教授团队设计了一个网络,能完全端到端识别,又同时能检测曲形、直线或者斜角的文字。 但检测任务是在图像水平上做处理,识别任务是在文本区域水平做处理,两个任务之间是有一定冲突的,导致在设计网络做这两个任务的时候非常困难,需要很好的预训练能力,预训练后的参数调节也十分困难,网络适用性不好。 为了有效的将检测和识别做到特征共享,白翔提出了一个巧妙的方法: 用空间换取时间,用字符级别的标注,换取训练上的方便。 要获得每一个字符的中心位置,把它也作为一个分割问题去考虑,并在分割的同时得到字符的类别,这个分割问题也变成多分类问题。 在英文识别时有阿拉伯数字0-9和字母A-Z共36种不同的类别。 每一类都产生相应的字符对应位置,外加一个整体,这样形成一个多任务,可以完全得到特征上的共享。
本算法能把弯曲的文字甚至是其中包含的水平文字,同时得到其位置和包围盒。 还有一个有意思的现象是,当把识别的模块删除后可以发现检测的准确率会降低,说明识别模块对检测是有帮助的。

 

不规则文字检测

针对不规则文字检测问题,白翔教授提出了TextField识别方法,获得了极好的效果。 在这个方法中,白翔使用了他在解决骨架检测(Skeleton Detection)问题时提出的DeepFlux算法,用骨架来标定文字的位置。 算法对包含文字的图片构建了一个有指向文字内部,也有指向文字外部的“场”,并进行训练。 它的好处是可以通过方向性区分相近的文字,并且能更有力地描述文字之间、局部之间的连接关系和局部的对称性关系。 如果用FCN解决这个问题,得到的文字连通性较差,有很强的抖动,平滑性差,甚至有些区域是错误的。 但是使用的DeepFlux方法,精度和平滑度都非常好,而且可以更好地去描述物体的上下文,时间复杂度也不错。 通过这个例子可以看出,将传统的算法与现有的深度学习相结合,可以焕发奇光异彩。

大 会 相 关

欲了解更多信息,可通过如下方式联系我们:

商务合作

于老师

微信:138-1148-4695


票务咨询

刘老师

微信:189-1006-4547


大会信息咨询

平平

手机:185-0057-0473

微信:185-1086-6934


企业服务专员

王老师

手机:170-9008-6234

微信:dalonsmary1010


点击“阅读原文”购票参会!
登录查看更多
4

相关内容

白翔博士,华中科技大学电子信息与通信学院教授、博导,国家防伪工程技术研究中心副主任。他的研究领域为计算机视觉与模式识别。已在国内外刊物和学术会议上发表论文200余篇,其中CCF A类论文50余篇,论文被谷歌学术引用13000余次。他带领团队研发的场景文字检测与识别技术已广泛应用于华为、阿里巴巴、美团等众多产品或系统中,取得了良好的经济和社会效益。曾应邀担任CVPR19/20/21, ICPR18/20, ICDAR19/21, ACCV18/20, ACM MM20/21, AAAI19/20/21等十余次领域主流国际会议的领域主席或资深程序委员。现/曾任IEEE TPAMI, PR, PRL, FCS等国际学术期刊的编委 (AE)。
最新《自然场景中文本检测与识别》综述论文,26页pdf
专知会员服务
69+阅读 · 2020年6月10日
【CCL 2019】结合规则蒸馏的情感原因发现方法
专知会员服务
21+阅读 · 2019年11月27日
CCAI 2019 | 张艳宁:高分辨率图像智能处理技术
中国人工智能学会
3+阅读 · 2019年8月14日
华科白翔老师团队ECCV2018 OCR论文:Mask TextSpotter
极市平台
3+阅读 · 2018年7月31日
OCR技术浅析
机器学习研究会
40+阅读 · 2017年12月8日
深度学习CTPN+CRNN模型实现图片内文字的定位与识别(OCR)
北京思腾合力科技有限公司
35+阅读 · 2017年11月27日
白翔:趣谈“捕文捉字”-- 场景文字检测 | VALSE2017之十
深度学习大讲堂
19+阅读 · 2017年9月4日
Arxiv
6+阅读 · 2019年7月11日
3D-LaneNet: end-to-end 3D multiple lane detection
Arxiv
7+阅读 · 2018年11月26日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
3+阅读 · 2017年11月21日
VIP会员
相关资讯
CCAI 2019 | 张艳宁:高分辨率图像智能处理技术
中国人工智能学会
3+阅读 · 2019年8月14日
华科白翔老师团队ECCV2018 OCR论文:Mask TextSpotter
极市平台
3+阅读 · 2018年7月31日
OCR技术浅析
机器学习研究会
40+阅读 · 2017年12月8日
深度学习CTPN+CRNN模型实现图片内文字的定位与识别(OCR)
北京思腾合力科技有限公司
35+阅读 · 2017年11月27日
白翔:趣谈“捕文捉字”-- 场景文字检测 | VALSE2017之十
深度学习大讲堂
19+阅读 · 2017年9月4日
Top
微信扫码咨询专知VIP会员