2022年5月21日,“古籍智能信息处理”系列专题研讨会第四讲在线举行。此次研讨会由中国图象图形学学会、北京大学数字人文研究中心、中国自动化学会主办,北京大学-字节跳动数字人文开放实验室、北京大学人工智能研究院承办,华南理工大学电子与信息学院金连文教授、北京大学数字人文研究中心主任王军教授主持了研讨会。本期研讨会的主题为“智能时代的古籍OCR技术”,中国科学院自动化研究所刘成林教授、华南理工大学金连文教授、安阳师范学院刘永革教授、北京书同文公司张弛宜总经理先后作了精彩的报告。本次研讨会通过腾讯会议、Bilibili网站、抖音和蔻享学术同步直播,吸引了来自国内外高校及相关研究领域的近4000位观众在线观看。
会议伊始,北京大学数字人文研究中心主任王军教授介绍了本次研讨会的召开背景和与会嘉宾。王军教授指出,OCR技术是古籍数字化的核心和基础,由于古籍文字量庞大、异体字众多等原因,古籍OCR比一般的OCR任务更具挑战性;OCR技术是目前古籍数字化领域受关注程度最高、应用面最广、需求量最大的技术;本次研讨会非常荣幸地邀请到古籍OCR领域的顶级专家和业界翘楚,阵容强大。随后,金连文教授主持了研讨会。
图 1 刘成林教授作报告
刘成林教授的报告主题为“复杂文档图像版面分析”。报告介绍了文档分析识别的一般流程:包括图像获取、图像预处理、版面分析、文字识别四个阶段。针对复杂多变的文档,介绍了一些近年来提出的基于深度学习的文档图像版面分析方法,包括基于实例分割的方法和基于关系推理的方法。这些新方法在版面分析的多个任务(背景去除、区域分割、图文分离、文本行分割等)上都取得了良好的性能。但是,基于深度学习的方法对数据标注的要求较高,如何解决标注数据集的缺乏,是一个重要的问题。在古籍文档分析工作方面,刘教授团队构建了CASIA古籍文档数据库,可以用来协助古籍文档版面分析与OCR工作。最后在总结中指出,古籍文档因其独特的复杂性,标记数据不足,其版面分析和识别技术发展相对滞后,未来应着力构建大规模图像和文本语料库、古籍文档图像预训练模型等,并通过全方位的技术研究、推广应用等促进古籍数字化的发展。
图 2 金连文教授作报告
金连文教授的报告主题为“古籍OCR:数据、方法及应用”,首先介绍了古籍OCR的研究意义和价值、困难与挑战,然后从数据、算法及应用三个方面分享了自己对于古籍OCR的思考。
在数据方面,金连文教授介绍了目前公开的中外文古籍版面数据集、中外文古籍文字检测与识别数据集、甲骨文图像数据集等情况。
在算法方面,金教授回顾了一些常用的物体检测及场景文本检测方法如YOLO、SSD、Faster R-CNN、MaskR-CNN、EAST、BDN等背景知识,介绍了两种高精度文字检测分割方法,包括基于强化学习的文字检测方法和基于识别指导的高精度文字分割方法,介绍了基于篇幅标注的古籍文字识别、弱监督的古籍文字识别、端到端古籍版面分析与文字识别方法。金教授还介绍了近期其团队开展的基于Transformer的古籍版面分析、基于图神经网络的文档阅读顺序理解等方法。
在OCR应用平台方面,金教授简要介绍了SCUT Tripitaka OCR、北京如是AI研究院古籍OCR、i-慧眼OCR等三个OCR应用平台。
图 3 刘永革教授作报告
刘永革教授介绍了“甲骨文大数据及相关识别处理”。甲骨文作为最古老的古籍,有其自身的特点,目前的甲骨文大数据建设有“三库一平台”。“三库”,包括著录库、文献库和字形库。著录库目前上线了152种著录,包括甲骨文的原始图像、释文、重片和缀合;文献库,包含了32737篇甲骨文论著;字形库,是包含4487个甲骨文字形的数据库。“一平台”,指的是“殷契文渊”网络平台,以知识图谱技术为依托,将甲骨文研究材料在语义层面进行有机结合,辅助研究工作。甲骨文的识别,作为一种特殊且困难的OCR对象,有国家特殊需求、甲骨文研究需要、释读甲骨文需要三重意义。刘教授选取了现有的三个OCR系统进行了识别实验,总结了甲骨文识别中存在的一些问题。其团队构建了手写甲骨字数据集、OBC306甲骨文识别数据集和甲骨文字检测数据集,希望这些数据集能够帮助计算机工作者提供更好的甲骨文OCR技术。最后,刘教授表示甲骨文就像一个未开发的宝藏,希望能通过信息技术破解甲骨文。
图 4 张弛宜总经理作报告
张弛宜总经理介绍了书同文“古籍OCR二十五年的工程及应用历程”。书同文古籍OCR工程的驱动始于1997年文渊阁四库全书电子版工程,该工程首次将国际编码字符集和OCR应用于大型古籍全文数字化。书同文开创了古籍全文数字化数据处理的制作流程。在2018年底,借助CNN方法,古籍OCR技术在工程实践中得到突破。以书同文i-慧眼为例,一台中档 GPU一天可以识别4万页、1400万字。张经理对i-慧眼与书同文众包校对平台“点字成金”做了操作演示。她表示,古籍全文数字化虽然是一个狭窄行业,但是能为中国传统文化数字化传承奠定数据基础,以此为基础的进一步研究成果广传于世,体现我国的文化自信,希望更多有志于此的同学们能参与到这项工作中。
图 5 与会专家讨论并回答观众问题
报告结束后,四位主讲人和与谈人就研讨会内容进行了交流探讨,回答了观众们的问题。对于学界和企业协作推进古籍OCR的发展,专家们表达了自己的期望。本次研讨会在各位OCR领域重量级大咖的加持下,对古籍OCR技术做了全面的总结,在长达三个小时的专业技术报告中,观看研讨会直播的观众人数不仅没有减少,反而越来越多,观众们热情参与,积极互动,反响热烈,纷纷表示此次研讨会令其收获颇丰,值得反复观看。本场研讨会荣登B站直播间高能榜第一名,无疑是OCR学界的一件盛事。
本期研讨会视频回放已在B站更新,错过本次研讨会的老师、同学及朋友们,可以在B站观看精彩报告录像回放,回放网址是:https://www.bilibili.com/video/BV19S4y1B7ru
来源:CSIG文档图像与识别专委会