CSIG文档图像分析与识别专业委员会学术微沙龙(简称:文档图像微沙龙)在线学术报告会第八期于2022年5月10日成功举行。本沙龙由中国图象图形学学会主办,文档图像分析与识别专委会发起承办,中国图象图形学报协办。本期活动邀请海康威视研究院乔梁工程师分享报告: 文字端到端识别技术的一些思考。微沙龙活动在B站、蔻享学术,中国图像图形学报视频号进行了同步直播,观看人数超过2000人次。
本次活动由海康威视研究院算法专家许昀璐主持,海康威视研究院高级算法工程师乔梁做了题为“文字端到端识别技术的一些思考”的学术报告。报告首先介绍了一些有关文字检测、识别与文字端达端识别的背景知识。接下来,以一名研发者的思路,分别介绍了两项文字端到端识别技术是在什么背景下被提出,以及如何解决实际中的问题。其中包括了为了解决弯曲文本难以识别而设计的,可以将弯曲文本边界关键点定位并矫正成为水平文本的端到端识别器Text Perceptron;以及为了去除RoI操作带来的高昂标注成本与误差累计而设计的单阶段端到端识别器MANGO。两项技术在当时都达到了SOTA的精度。第三部分中,报告嘉宾针对现在端到端识别技术发展现状,以及相关技术在实际中的落地使用情况,详细地分析了目前端到端识别技术所面临的一些挑战,以及未来该技术在学术和工业发展的思考。最后,报告嘉宾回答了听众提出的一系列问题,并号召大家共同探索解决相关难题。报告中涉及的两项工作的源代码已经开源至仓库:https://github.com/hikopensource/DAVAR-Lab-OCR,该仓库中还包含了许多团队其他工作和复现的经典方法,覆盖了大部分基础OCR和文档理解子领域。
报告的论文:
[1] Liang Qiao, Sanli Tang, Zhanzhan Cheng, Yunlu Xu, Yi Niu, Shiliang Pu, Fei Wu:
Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting. AAAI 2020: 11899-11907.
[2] Liang Qiao, Ying Chen, Zhanzhan Cheng, Yunlu Xu, Yi Niu, Shiliang Pu, Fei Wu:
MANGO: A Mask Attention Guided One-Stage Scene Text Spotter. AAAI 2021: 2467-2476
本次报告会获得了良好效果,我们期待更多优秀青年学子在文档图像领域取得研究进展,并在后续的沙龙报告会中踊跃参与、共同进步!
https://www.bilibili.com/video/BV1jP4y1F7Xw?share_source=copy_web