【CSIG奖励访谈】自然科学奖一等奖"复杂场景文字检测与识别"团队

会员服务 ·

【CSIG奖励访谈】自然科学奖一等奖"复杂场景文字检测与识别"团队

2022 年 8 月 17 日 中国图象图形学学会CSIG

CSIG自然科学奖授予在我国图像图形领域基础研究和应用基础研究中阐明自然现象、特征和规律，做出重大科学发现的个人和团队。

为宣传科技工作者积极进取的工作精神，聚焦获奖团队背后的故事，学会近日对荣获自然科学奖一等奖"复杂场景文字检测与识别"的项目团队进行了专访，以对话的形式，为读者们提供一次了解他们的机会。

下面就跟着我们的脚步，走近今天的受访团队吧。

问题一：首先非常感谢各位老师接受我们的采访，请先介绍一下团队成员：

本项目由华中科技大学师生合作完成，团队成员包括白翔教授、刘文予教授、石葆光博士和廖明辉博士。
白翔，华中科技大学教授、博导。中国图象图形学学会理事、青年工作委员会主任。主要研究方向计算机视觉与模式识别、文档分析等。已在人工智能领域一流期刊/会议如PAMI、CVPR等发表论文70余篇，谷歌学术总引用逾2万次，h指数81。由于在场景文字检测与识别取得的贡献，获2019年国际模式识别协会IAPR/ICDAR Young Investigator Award (青年学者奖)。现任期刊IEEE TPAMI、中国科学-信息科学等编委。曾担任CVPR、AAAI等人工智能主流国际会议的领域主席十余次。2014-2021连续8年入选Elsevier中国高被引学者榜，2020年入选国际模式识别协会会士(IAPR Fellow).
刘文予，华中科技大学电子信息与通信学院人工智能研究所所长、教授。主要研究方向为计算机视觉、人工智能。中国图象图形学学会图像视频通信专业委员会主任、中国图象图形学学会常务理事、中国通信学会会士。主持完成8项国家自然科学基金项目，包括国家自然科学基金重点项目，以及国家重点研发计划等项目。获湖北省技术发明一等奖、教育部“宝钢”优秀教师奖。担任多种国际学术会议分会主席和委员会成员。在IEEE Trans 等国际著名期刊和顶级会议发表论文100多篇，获发明专利30多项。谷歌学术引用次数超19000次，H指数59。
石葆光，2012年于华中科技大学电子信息工程系获得工学学位，2018年于华中科技大学电子信息与通信学院获得博士学位，导师为白翔教授。博士期间主要研究领域包括场景文字识别和三维形状分析，以第一作者身份在TPAMI，CVPR，PR，ICDAR等国际顶级期刊和会议上发表论文，谷歌学术引用7000余次。多次担任TPAMI，CVPR，ICCV，NeurIPS等顶级期刊和会议审稿人。2019年获得中国人工智能学会优博提名奖。目前在微软（美国）担任资深研究员。
廖明辉，华为算法研究员。2016年和2021年在华中科技大学分别获得学士学位和博士学位。2021年华为天才少年，曾获得CCF-CV学术新锐奖、AI华人新星百强、互联网+大学生创新创业大赛国赛金奖等荣誉。研究方向为计算机视觉和场景OCR。以第一作者发表顶会顶刊论文十余篇，谷歌学术引用数超过2700。担任十余个顶级期刊和会议的审稿人。

问题二：了解完了团队内的各位老师，请为大家简单的介绍一下项目的情况：

场景文字检测与识别是模式识别与文档分析领域的热点问题，具有广阔的应用前景。然而，由于文字自身的多变性和自然场景的复杂性，导致其成为了领域公认的难题。在国家自然科学基金优秀青年基金（2012）的支持下，本项目针对传统文字识别技术在各种实际应用需求中存在的诸多局限性，围绕场景文字检测与识别开展了十年深入研究，取得了一系列创新性成果，主要科学发现如下：
1、场景文字的鲁棒性特征表示理论与方法。针对场景文字形状的复杂多变、排列方式的多方向性，首创了适合于多方向场景文字检测算法框架，发布首个多方向场景文字检测公共数据集及评价标准；打破了传统文字识别方法只针对特定语种的局限，建立了适合多语种的中层语义特征表示学习理论与方法；发现了场景文字检测阶段和识别阶段的特征共享机制，建立了首个特征和分类器共用的端到端文字识别模型框架。
2、多方向场景文字检测的深度神经网络模型。发明了首个基于深度神经网络的多方向场景文字检测模型，有效克服了深度神经网络应对文字极端长宽比时感受野受限这一瓶颈，形成了首套基于深度学习的文字端到端识别完整解决方案；提出了局部-连接关系预测深度网络模型，突破了基于包围盒检测的限制，能适应场景文字各种形变。在最有挑战的场景文字检测数据集ICDAR15上精度提升了约15%。
3、文字序列图像识别的深度神经网络模型。针对文字的多样性及其分布的“长尾效应”给识别带来的严重挑战，打破基于字符的文字识别的传统方式，提出了联合文字序列特征提取和上下文分析的创新思路，构造了可直接识别文字序列图像的新型深度网络架构，实现了不定长文字序列图像精准且高效的识别。提出了自适应空间变换与序列图像识别相结合的深度网络模型，同时实现不规则形状文字的矫正与识别。
该项目在学科权威期刊和会议TPAMI/TIP/CVPR/AAAI/ICCV/ECCV上发表论文26篇，已申请/授权发明专利21/13项。8篇代表作总他引数1601次，谷歌学术单篇最高引用1300+次，是近5年文档分析与识别领域引用最高的论文。研究工作获得了包括中国科学院院士、美国国家医学院院士、英国皇家院士、国际重要协会Fellow等150多位人工智能顶级科学家的引用和好评。项目提出了场景文字检测与识别领域的多个里程碑式的成果，引领了场景文字检测与识别的技术迭代，促进了文档分析与识别领域的学术研究与产业应用。研究工作得到了工业界的强烈关注，被多家知名企业如谷歌、高通、Dropbox、领英、百度、阿里巴巴、腾迅、三星、搜狗等积极引用、借鉴或使用，部分开源代码如TextBoxes、CRNN被GitHub用户多次下载或二次开发，已获用户好评数超千次；开源代码或复现被OpenCV，百度PaddlePaddle和华为云ModelArt等多个开源平台收录并推荐使用。此外，项目还培养了一批高水平技术人才：第三完成人现任微软AI与云实验室研究员，负责Office的技术研发；第四完成人最近入选了华为“天才少年”计划（第1层次），现负责华为云平台的文字识别技术升级；百度OCR技术负责人及阿里巴巴达摩院文字识别与智能教育团队技术负责人也是本项目组培养的毕业生。

问题三：请问各位老师在科研过程中，有没有什么好的方法可以推荐给大家？

刚开始从事该课题研究时，国际上没有太多工作供我们借鉴，团队经历了一段边摸索边前进的艰苦过程，这里面最重要的方法应该是“兴趣+坚持”。
对于场景文字检测与识别这种应用基础研究，我们的心得在于其研究问题应该根据实际应用需求去总结和定义，这就需要加强和企业频繁交流、密切合作。

问题四：在项目的研究过程中有遇到什么困难吗？大家是如何解决的呢？

面临的困难主要体现在两个方面：1）自然场景的文字检测与识别在当时是一项极具挑战的任务，对于我们来说也是一个全新的研究领域；2）有关的开源代码和数据也不丰富，这导致进入状态非常缓慢。为了解决这些困难，我们体现出了足够的耐心，坚持以突破场景OCR的技术瓶颈为目标，逐步形成了研究团队顽强拼搏、求真务实的学术氛围，从而实现了人才培养和研究进展双赢的结果。