历经近一个世纪的OCR技术如今怎么样了?

2018 年 4 月 5 日 InfoQ

自从阿兰·图灵(Alan Turing)提出了图灵测试为我们劈开了一条人工智能的道路后,人们就没有停止对其的追逐,从 1956年的达特茅斯会议一众先驱讨论关于人工智能的种种可能性后,人工智能从符号主义到连接主义,再到这几年基于互联网大数据的机器学习,这期间衍生出很多种技术,而有些技术时至今日还在业界有着广泛应用。

OCR(Optical Character Recognition,光学字符识别)的概念早在 1929年由德国科学家 Tausheck提出来,一直是模式识别领域中重要的研究方向。

同时,这三次 AI技术浪潮中,有无数人投身其中,又有无数人在每次的低潮期原则转型,然而有那么一小部分人,从第二次的技术浪潮坚持到了本次的第三次人工智能浪潮。这个世界从不缺少追赶风口的人,但永远缺少在一个行业持续做十年,甚至二十年的人。

张睿,我们本次文章的主人公,在 1996年期间就开始从事 OCR相关的工作,在这个领域有二十多年的研究经验,在清华大学读博期间,师从我国著名图像处理,文字处理专家,“模式识别统一熵理论”的提出人,丁晓青教授。

首先,我们来看看,什么是 OCR技术,如果说 OCR技术你不熟悉,那么下面的这些应用场景你肯定都特别熟悉,比如当你用微信添加银行卡的时,只要用摄像头扫一扫就可以自动添加银行卡,剩去手动输入的麻烦,而对于银行,金融的从业人员来说,以往大量的票据需要手动录入,但是利用 OCR技术,可以快速的完成文档的数字化工作。

总结起来,OCR 应用场景主要分为以下几类:

  • 卡证识别包括:身份证识别、银行卡识别、驾驶证识别、行驶证识别、港澳通行证识别、户口薄识别等;

  • 固定表单识别包括:增值税发票识别、支票识别、承兑汇票识别、银行票据识别、营业执照识别;

  • 其他识别包括:二维码识别、一维码识别、车牌识别、数学公式识别、猪肉打码识别等。

作为横跨两次人工智能技术浪潮的人,在谈及 OCR技术时,张睿老师坦言,一般来说,OCR技术一般分为两个大步骤,图像处理和文字识别,在对文字进行识别之前,我们要对原始图片进行预处理,以便后续的特征提取和学习。这个过程通常包含:灰度化、二值化、降噪、倾斜矫正、文字切分等子步骤。预处理完毕后,就到了文字识别的阶段,首先是对文字进行特征的抽取以及降维,特征是用来识别文字的关键信息,每个不同的文字都能通过特征来和其他文字进行区分。然后就是丢给分类器设计和训练,对一个文字图像,提取出特征,丢给分类器,分类器就对其进行分类,告诉你这个特征该识别成哪个文字。后面,还要利用自然语言处理的相关技术对分类器的结果进行优化。

在互联网的任何行业中,可以说都在用 OCR技术在解决相关问题,这其中百度应该算是最早的一批利用 OCR技术的互联网公司了,例如百度 app的拍照识别,甚至贴吧中,都有用到 OCR技术,百度视觉技术部下属的 OCR团队组建于 2011年,经过多年的研发,目前已经将基于深度学习的 OCR技术应用在多个应用场景下,支持中、英、日、韩、葡、德、法、意、西、俄等十国语言。而张睿老师也是最早进入百度 OCR团队的人之一,早在 2010年,张睿老师由现任百度副总裁,AI技术平台体系 (AIG)总负责人,百度研究院院长,王海峰博士直接招入加入百度。后来辗转来到美团担任研究员,继续从事 OCR技术方面的研究。

OCR技术发展多年来,从应用场景来看,已经在图像识别,身份证识别,包括银行保险的票据等方面都有应用,从技术层面来看,早先的传统文字识别手法基本都采用基于模板匹配的方式,对特征描述要求非常苛刻,很难满足复杂场景下的识别任务。而自从第三次人工智能浪潮兴起,在算法以及算力都有大幅度突破的情况下,深度学习抛弃了传统人工设计特征的方式,利用海量标定样本数据以及大规模 GPU集群的优势让机器自动学习特征和模型参数,能一定程度上弥补底层特征与高层语义之间的不足。就在最近这几年,基于深度学习的图像识别达到了前所未有的高度,这也让 OCR技术有了广阔的场景。

OCR技术在互联网各行业都有广泛的应用,如果你的公司业务中有涉及图像识别和文字识别等业务,那么不要错过本次 QCon北京的深度培训,在 4月 23日 -4月 24日,北京国际会议中心,张睿老师凭借在 OCR领域二十余年的积累,详细的为你介绍从上个世纪以来 OCR技术的整体发展历程并分享众多 OCR领域的案例,答疑解惑。现在报名,享受 8折优惠,立省 768元,更多优惠扫描下方二维码,将立即得到回电。


登录查看更多
16

相关内容

OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
专知会员服务
78+阅读 · 2020年6月20日
Python计算导论,560页pdf,Introduction to Computing Using Python
专知会员服务
69+阅读 · 2020年5月5日
基于深度神经网络的少样本学习综述
专知会员服务
166+阅读 · 2020年4月22日
生物数据挖掘中的深度学习,诺丁汉特伦特大学
专知会员服务
65+阅读 · 2020年3月5日
中科大-人工智能方向专业课程2020《脑与认知科学导论》
新时期我国信息技术产业的发展
专知会员服务
68+阅读 · 2020年1月18日
关于人脸识别的最全研究!
人工智能学家
7+阅读 · 2019年9月20日
【OCR技术】大批量生成文字训练集
七月在线实验室
9+阅读 · 2019年3月11日
深扒人脸识别60年技术发展史
炼数成金订阅号
3+阅读 · 2018年6月20日
腾讯数平精准推荐 | OCR技术之检测篇
机器学习研究会
13+阅读 · 2018年3月17日
【院士讲堂】谭铁牛:生物识别是未来的趋势
中国科学院自动化研究所
3+阅读 · 2018年2月5日
文本识别 OCR 浅析:特征篇
开源中国
16+阅读 · 2018年1月6日
颤抖吧,小学生已经开始学Python了!十年后你还有工作么?
七月在线实验室
4+阅读 · 2017年12月10日
OCR技术浅析
机器学习研究会
40+阅读 · 2017年12月8日
人脸识别独角兽之战
数据玩家
6+阅读 · 2017年9月30日
Arxiv
20+阅读 · 2020年6月8日
Neural Architecture Optimization
Arxiv
8+阅读 · 2018年9月5日
Arxiv
8+阅读 · 2018年3月20日
Arxiv
3+阅读 · 2017年11月12日
VIP会员
相关VIP内容
专知会员服务
78+阅读 · 2020年6月20日
Python计算导论,560页pdf,Introduction to Computing Using Python
专知会员服务
69+阅读 · 2020年5月5日
基于深度神经网络的少样本学习综述
专知会员服务
166+阅读 · 2020年4月22日
生物数据挖掘中的深度学习,诺丁汉特伦特大学
专知会员服务
65+阅读 · 2020年3月5日
中科大-人工智能方向专业课程2020《脑与认知科学导论》
新时期我国信息技术产业的发展
专知会员服务
68+阅读 · 2020年1月18日
相关资讯
关于人脸识别的最全研究!
人工智能学家
7+阅读 · 2019年9月20日
【OCR技术】大批量生成文字训练集
七月在线实验室
9+阅读 · 2019年3月11日
深扒人脸识别60年技术发展史
炼数成金订阅号
3+阅读 · 2018年6月20日
腾讯数平精准推荐 | OCR技术之检测篇
机器学习研究会
13+阅读 · 2018年3月17日
【院士讲堂】谭铁牛:生物识别是未来的趋势
中国科学院自动化研究所
3+阅读 · 2018年2月5日
文本识别 OCR 浅析:特征篇
开源中国
16+阅读 · 2018年1月6日
颤抖吧,小学生已经开始学Python了!十年后你还有工作么?
七月在线实验室
4+阅读 · 2017年12月10日
OCR技术浅析
机器学习研究会
40+阅读 · 2017年12月8日
人脸识别独角兽之战
数据玩家
6+阅读 · 2017年9月30日
Top
微信扫码咨询专知VIP会员