携程自研的OCR项目

2019 年 8 月 12 日 专知

【导读】C-OCR是携程自研的OCR项目,主要包括身份证、护照、火车票、签证等旅游相关证件、材料的识别。项目包含4个部分,拒识、检测、识别、后处理。项目主要由Java实现。


拒识

拒识是针对图片中的姓名区域,校验是否曝光、遮挡以及模糊



检测

检测即确定图片中文本的位置


识别

检测部分使用了传统方法而非深度学习。对输入特征提取了RGB色彩模式、灰度化、二值化、HOG、LBP、HSV H 等图片特征,然后使用图片相似度对比算法如直方图匹配、Xor匹配、投影对比、质心对比等方法,最后使用logistics回归模型,计算预测结果。


后处理

后处理主要分为相似度比较、规则检验、全排列三个部分。其中相似度比较采用的是编辑距离。

Github链接:

https://github.com/ctripcorp/C-OCR

-END-

专 · 知

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎登录www.zhuanzhi.ai,注册登录专知,获取更多AI知识资料!

欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询

请加专知小助手微信(扫一扫如下二维码添加),加入专知人工智能主题群,咨询技术商务合作~

专知《深度学习:算法到实战》课程全部完成!560+位同学在学习,现在报名,限时优惠!网易云课堂人工智能畅销榜首位!

点击“阅读原文”,了解报名专知《深度学习:算法到实战》课程

登录查看更多
23

相关内容

OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
【DeepMind推荐】居家学习的人工智能干货资源大全集
专知会员服务
108+阅读 · 2020年6月27日
专知会员服务
221+阅读 · 2020年5月6日
【Facebook AI】低资源机器翻译,74页ppt
专知会员服务
29+阅读 · 2020年4月8日
专知会员服务
109+阅读 · 2020年3月12日
【机器学习课程】Google机器学习速成课程
专知会员服务
164+阅读 · 2019年12月2日
【课程】伯克利2019全栈深度学习课程(附下载)
专知会员服务
56+阅读 · 2019年10月29日
开源OCR文本检测器,基于TextBoxes++和RetinaNet
专知
11+阅读 · 2019年11月15日
【资源】图像分割/显著性检测数据集列表
专知
13+阅读 · 2019年5月22日
【资源】深度学习模型压缩资源汇总
专知
38+阅读 · 2019年5月8日
CVPR 2019 论文开源项目合集
专知
18+阅读 · 2019年4月7日
【资源推荐】情感分析资源列表
专知
31+阅读 · 2019年3月20日
「Awesome」3D机器学习资源汇总
专知
7+阅读 · 2019年3月14日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
3D-LaneNet: end-to-end 3D multiple lane detection
Arxiv
7+阅读 · 2018年11月26日
Arxiv
6+阅读 · 2018年1月14日
VIP会员
相关VIP内容
【DeepMind推荐】居家学习的人工智能干货资源大全集
专知会员服务
108+阅读 · 2020年6月27日
专知会员服务
221+阅读 · 2020年5月6日
【Facebook AI】低资源机器翻译,74页ppt
专知会员服务
29+阅读 · 2020年4月8日
专知会员服务
109+阅读 · 2020年3月12日
【机器学习课程】Google机器学习速成课程
专知会员服务
164+阅读 · 2019年12月2日
【课程】伯克利2019全栈深度学习课程(附下载)
专知会员服务
56+阅读 · 2019年10月29日
相关资讯
相关论文
Top
微信扫码咨询专知VIP会员