历经近一个世纪的OCR技术如今怎么样了？

2018 年 4 月 5 日 InfoQ

自从阿兰·图灵（Alan Turing）提出了图灵测试为我们劈开了一条人工智能的道路后，人们就没有停止对其的追逐，从 1956年的达特茅斯会议一众先驱讨论关于人工智能的种种可能性后，人工智能从符号主义到连接主义，再到这几年基于互联网大数据的机器学习，这期间衍生出很多种技术，而有些技术时至今日还在业界有着广泛应用。

OCR（Optical Character Recognition，光学字符识别）的概念早在 1929年由德国科学家 Tausheck提出来，一直是模式识别领域中重要的研究方向。

同时，这三次 AI技术浪潮中，有无数人投身其中，又有无数人在每次的低潮期原则转型，然而有那么一小部分人，从第二次的技术浪潮坚持到了本次的第三次人工智能浪潮。这个世界从不缺少追赶风口的人，但永远缺少在一个行业持续做十年，甚至二十年的人。

张睿，我们本次文章的主人公，在 1996年期间就开始从事 OCR相关的工作，在这个领域有二十多年的研究经验，在清华大学读博期间，师从我国著名图像处理，文字处理专家，“模式识别统一熵理论”的提出人，丁晓青教授。

首先，我们来看看，什么是 OCR技术，如果说 OCR技术你不熟悉，那么下面的这些应用场景你肯定都特别熟悉，比如当你用微信添加银行卡的时，只要用摄像头扫一扫就可以自动添加银行卡，剩去手动输入的麻烦，而对于银行，金融的从业人员来说，以往大量的票据需要手动录入，但是利用 OCR技术，可以快速的完成文档的数字化工作。

总结起来，OCR 应用场景主要分为以下几类：

卡证识别包括：身份证识别、银行卡识别、驾驶证识别、行驶证识别、港澳通行证识别、户口薄识别等；
固定表单识别包括：增值税发票识别、支票识别、承兑汇票识别、银行票据识别、营业执照识别；
其他识别包括：二维码识别、一维码识别、车牌识别、数学公式识别、猪肉打码识别等。

作为横跨两次人工智能技术浪潮的人，在谈及 OCR技术时，张睿老师坦言，一般来说，OCR技术一般分为两个大步骤，图像处理和文字识别，在对文字进行识别之前，我们要对原始图片进行预处理，以便后续的特征提取和学习。这个过程通常包含：灰度化、二值化、降噪、倾斜矫正、文字切分等子步骤。预处理完毕后，就到了文字识别的阶段，首先是对文字进行特征的抽取以及降维，特征是用来识别文字的关键信息，每个不同的文字都能通过特征来和其他文字进行区分。然后就是丢给分类器设计和训练，对一个文字图像，提取出特征，丢给分类器，分类器就对其进行分类，告诉你这个特征该识别成哪个文字。后面，还要利用自然语言处理的相关技术对分类器的结果进行优化。

在互联网的任何行业中，可以说都在用 OCR技术在解决相关问题，这其中百度应该算是最早的一批利用 OCR技术的互联网公司了，例如百度 app的拍照识别，甚至贴吧中，都有用到 OCR技术，百度视觉技术部下属的 OCR团队组建于 2011年，经过多年的研发，目前已经将基于深度学习的 OCR技术应用在多个应用场景下，支持中、英、日、韩、葡、德、法、意、西、俄等十国语言。而张睿老师也是最早进入百度 OCR团队的人之一，早在 2010年，张睿老师由现任百度副总裁，AI技术平台体系 (AIG)总负责人，百度研究院院长，王海峰博士直接招入加入百度。后来辗转来到美团担任研究员，继续从事 OCR技术方面的研究。

OCR技术发展多年来，从应用场景来看，已经在图像识别，身份证识别，包括银行保险的票据等方面都有应用，从技术层面来看，早先的传统文字识别手法基本都采用基于模板匹配的方式，对特征描述要求非常苛刻，很难满足复杂场景下的识别任务。而自从第三次人工智能浪潮兴起，在算法以及算力都有大幅度突破的情况下，深度学习抛弃了传统人工设计特征的方式，利用海量标定样本数据以及大规模 GPU集群的优势让机器自动学习特征和模型参数，能一定程度上弥补底层特征与高层语义之间的不足。就在最近这几年，基于深度学习的图像识别达到了前所未有的高度，这也让 OCR技术有了广阔的场景。

OCR技术在互联网各行业都有广泛的应用，如果你的公司业务中有涉及图像识别和文字识别等业务，那么不要错过本次 QCon北京的深度培训，在 4月 23日 -4月 24日，北京国际会议中心，张睿老师凭借在 OCR领域二十余年的积累，详细的为你介绍从上个世纪以来 OCR技术的整体发展历程并分享众多 OCR领域的案例，答疑解惑。现在报名，享受 8折优惠，立省 768元，更多优惠扫描下方二维码，将立即得到回电。

登录查看更多

相关内容

光学字符识别

关注 44

OCR （Optical Character Recognition，光学字符识别）是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

Python计算导论，560页pdf，Introduction to Computing Using Python

专知会员服务

76+阅读 · 2020年5月5日

基于深度神经网络的少样本学习综述

专知会员服务

173+阅读 · 2020年4月22日

生物数据挖掘中的深度学习，诺丁汉特伦特大学

专知会员服务

68+阅读 · 2020年3月5日

中科大-人工智能方向专业课程2020《脑与认知科学导论》

专知会员服务

126+阅读 · 2020年3月4日