自从阿兰·图灵(Alan Turing)提出了图灵测试为我们劈开了一条人工智能的道路后,人们就没有停止对其的追逐,从 1956年的达特茅斯会议一众先驱讨论关于人工智能的种种可能性后,人工智能从符号主义到连接主义,再到这几年基于互联网大数据的机器学习,这期间衍生出很多种技术,而有些技术时至今日还在业界有着广泛应用。
OCR(Optical Character Recognition,光学字符识别)的概念早在 1929年由德国科学家 Tausheck提出来,一直是模式识别领域中重要的研究方向。
同时,这三次 AI技术浪潮中,有无数人投身其中,又有无数人在每次的低潮期原则转型,然而有那么一小部分人,从第二次的技术浪潮坚持到了本次的第三次人工智能浪潮。这个世界从不缺少追赶风口的人,但永远缺少在一个行业持续做十年,甚至二十年的人。
张睿,我们本次文章的主人公,在 1996年期间就开始从事 OCR相关的工作,在这个领域有二十多年的研究经验,在清华大学读博期间,师从我国著名图像处理,文字处理专家,“模式识别统一熵理论”的提出人,丁晓青教授。
首先,我们来看看,什么是 OCR技术,如果说 OCR技术你不熟悉,那么下面的这些应用场景你肯定都特别熟悉,比如当你用微信添加银行卡的时,只要用摄像头扫一扫就可以自动添加银行卡,剩去手动输入的麻烦,而对于银行,金融的从业人员来说,以往大量的票据需要手动录入,但是利用 OCR技术,可以快速的完成文档的数字化工作。
总结起来,OCR 应用场景主要分为以下几类:
卡证识别包括:身份证识别、银行卡识别、驾驶证识别、行驶证识别、港澳通行证识别、户口薄识别等;
固定表单识别包括:增值税发票识别、支票识别、承兑汇票识别、银行票据识别、营业执照识别;
其他识别包括:二维码识别、一维码识别、车牌识别、数学公式识别、猪肉打码识别等。
作为横跨两次人工智能技术浪潮的人,在谈及 OCR技术时,张睿老师坦言,一般来说,OCR技术一般分为两个大步骤,图像处理和文字识别,在对文字进行识别之前,我们要对原始图片进行预处理,以便后续的特征提取和学习。这个过程通常包含:灰度化、二值化、降噪、倾斜矫正、文字切分等子步骤。预处理完毕后,就到了文字识别的阶段,首先是对文字进行特征的抽取以及降维,特征是用来识别文字的关键信息,每个不同的文字都能通过特征来和其他文字进行区分。然后就是丢给分类器设计和训练,对一个文字图像,提取出特征,丢给分类器,分类器就对其进行分类,告诉你这个特征该识别成哪个文字。后面,还要利用自然语言处理的相关技术对分类器的结果进行优化。
在互联网的任何行业中,可以说都在用 OCR技术在解决相关问题,这其中百度应该算是最早的一批利用 OCR技术的互联网公司了,例如百度 app的拍照识别,甚至贴吧中,都有用到 OCR技术,百度视觉技术部下属的 OCR团队组建于 2011年,经过多年的研发,目前已经将基于深度学习的 OCR技术应用在多个应用场景下,支持中、英、日、韩、葡、德、法、意、西、俄等十国语言。而张睿老师也是最早进入百度 OCR团队的人之一,早在 2010年,张睿老师由现任百度副总裁,AI技术平台体系 (AIG)总负责人,百度研究院院长,王海峰博士直接招入加入百度。后来辗转来到美团担任研究员,继续从事 OCR技术方面的研究。
OCR技术发展多年来,从应用场景来看,已经在图像识别,身份证识别,包括银行保险的票据等方面都有应用,从技术层面来看,早先的传统文字识别手法基本都采用基于模板匹配的方式,对特征描述要求非常苛刻,很难满足复杂场景下的识别任务。而自从第三次人工智能浪潮兴起,在算法以及算力都有大幅度突破的情况下,深度学习抛弃了传统人工设计特征的方式,利用海量标定样本数据以及大规模 GPU集群的优势让机器自动学习特征和模型参数,能一定程度上弥补底层特征与高层语义之间的不足。就在最近这几年,基于深度学习的图像识别达到了前所未有的高度,这也让 OCR技术有了广阔的场景。
OCR技术在互联网各行业都有广泛的应用,如果你的公司业务中有涉及图像识别和文字识别等业务,那么不要错过本次 QCon北京的深度培训,在 4月 23日 -4月 24日,北京国际会议中心,张睿老师凭借在 OCR领域二十余年的积累,详细的为你介绍从上个世纪以来 OCR技术的整体发展历程并分享众多 OCR领域的案例,答疑解惑。现在报名,享受 8折优惠,立省 768元,更多优惠扫描下方二维码,将立即得到回电。