能直接复制图片中文字,功能远超普通OCR软件,MIT学生开发了一款强大Chrome插件

2019 年 9 月 12 日 CVer

点击上方“CVer”,选择加"星标"或“置顶”

重磅干货,第一时间送达

晓查 发自 凹非寺 
本文转载自:量子位(QbitAI)

有时你遇到一篇古老的文献,PDF文档还是扫描版。又或者是遇到一幅网页版海报,上面的文字你完全看不懂。

但你无法把图片中的文字复制下来做进一步处理,是不是让人头大?

虽然市场上有很多OCR软件可以识别图片中的文字,但还是有种种局限性,比如无法识别文字排版,需要转成其他文件后才能处理,无法直接操作。

最近,一位来自MIT的学生Kevin Kwok解决了以上这些问题。他用计算机视觉算法写了个Chrome插件Naptha,可以直接识别网页图片中的文字,并直接对它们进行高亮、复制粘贴、翻译、修改等操作。

拾取图片中的文字

Naptha无需在电脑上安装App,直接在Chrome应用商店中搜索Project Naptha,就可以看到这款插件,一键安装后即可在Chrome浏览器中使用。

Naptha可以用于在线漫画、扫描文档,甚至连拍摄照片中的文字也能识别出来。

普通的网页文字自然不在话下:

如果是别人给你发过来的扫描文件也没关系,直接把文件拖到Chrome浏览器中(Chrome支持打开多种本地文件),Naptha就能识别。

对于照片中的图片,Naptha也能够读出。作者Kevin拍摄了一本书的封面,除了文字不清晰、竖向排列的情况,封面的书名和简介都能正常识别出来。

Naptha还支持读取表格文字,并将复制下来的文字粘贴到Excel里。

Kevin承诺,Naptha未来还会加入翻译、除去文字水印、直接在图片上修改文字等功能。这些功能目前还处在beta测试阶段,处于不稳定或者不可用状态。


不是OCR,是文本检测

光学字符识别(OCR)已经不是什么新鲜事了,虽然Naptha实现的功能看起来像OCR,但实际上它主要功能实际上是文本检测。

一般的OCR不包含语言模型,而Naptha则可以根据上下文的概率输出一系列字母。比如把一串字符判定成“hello”,而不是“he1 | o”。

OCR需要知道图片中的语言才能正确识别文本,Naptha使用的是一种称为“ 笔划宽度变换”的算法,该算法由微软研究院于2008年提出,它就像人一样,即使不知道是何种语言,也能猜到文字就在那里。

结合其他算法,如连通分量分析(识别不同的字母)、otsu阈值(确定字间距)、不相交的集合森林(识别文本行),Naptha可以非常快速地建立文本区域、单词和字母的模型,识别图中存在哪些特定字母。

通过一些基本的布局分析和文本度量,Naptha还可以找出文本的对齐参数、字体大小和字体粗细。有了这些信息,它可以在同一个地方以类似的字体重新打印文本,或者将文本改成同字体的其他文字。

传送门

博客地址:
https://projectnaptha.com/

Chrome插件下载地址:
https://chrome.google.com/webstore/detail/project-naptha/molncoemjfmpgdkbdlbjmhlcgniigdnf

重磅!CVer-OCR 交流群成立啦


扫码添加CVer助手,可申请加入CVer-OCR 交流群,同时还可以加入目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测和模型剪枝&压缩等群。一定要备注:研究方向+地点+学校/公司+昵称(如目标检测+上海+上交+卡卡)

▲长按加群


▲长按关注我们

麻烦给我一个在看!

登录查看更多
0

相关内容

OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
Python图像处理,366页pdf,Image Operators Image Processing in Python
Python计算导论,560页pdf,Introduction to Computing Using Python
专知会员服务
70+阅读 · 2020年5月5日
【资源】100+本免费数据科学书
专知会员服务
105+阅读 · 2020年3月17日
深度神经网络实时物联网图像处理,241页pdf
专知会员服务
76+阅读 · 2020年3月15日
算法与数据结构Python,369页pdf
专知会员服务
160+阅读 · 2020年3月4日
【经典书】Python计算机视觉编程,中文版,363页pdf
专知会员服务
136+阅读 · 2020年2月16日
AWVS12 V12.0.190530102 windows正式版完美破解版
黑白之道
29+阅读 · 2019年8月24日
【OCR技术】大批量生成文字训练集
七月在线实验室
9+阅读 · 2019年3月11日
刚开始学编程?这几款小工具能让你事半功倍
OCR技术浅析
机器学习研究会
40+阅读 · 2017年12月8日
深度学习CTPN+CRNN模型实现图片内文字的定位与识别(OCR)
数据挖掘入门与实战
16+阅读 · 2017年11月25日
用python和Tesseract实现光学字符识别(OCR)
Python程序员
7+阅读 · 2017年7月18日
OCR 哪家强?反正我觉得这个工具是厉害的不得了。
高效率工具搜罗
4+阅读 · 2017年7月3日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
31+阅读 · 2018年11月13日
Arxiv
135+阅读 · 2018年10月8日
Arxiv
7+阅读 · 2018年3月21日
Arxiv
3+阅读 · 2017年12月18日
Arxiv
3+阅读 · 2017年11月12日
VIP会员
相关VIP内容
Python图像处理,366页pdf,Image Operators Image Processing in Python
Python计算导论,560页pdf,Introduction to Computing Using Python
专知会员服务
70+阅读 · 2020年5月5日
【资源】100+本免费数据科学书
专知会员服务
105+阅读 · 2020年3月17日
深度神经网络实时物联网图像处理,241页pdf
专知会员服务
76+阅读 · 2020年3月15日
算法与数据结构Python,369页pdf
专知会员服务
160+阅读 · 2020年3月4日
【经典书】Python计算机视觉编程,中文版,363页pdf
专知会员服务
136+阅读 · 2020年2月16日
相关资讯
AWVS12 V12.0.190530102 windows正式版完美破解版
黑白之道
29+阅读 · 2019年8月24日
【OCR技术】大批量生成文字训练集
七月在线实验室
9+阅读 · 2019年3月11日
刚开始学编程?这几款小工具能让你事半功倍
OCR技术浅析
机器学习研究会
40+阅读 · 2017年12月8日
深度学习CTPN+CRNN模型实现图片内文字的定位与识别(OCR)
数据挖掘入门与实战
16+阅读 · 2017年11月25日
用python和Tesseract实现光学字符识别(OCR)
Python程序员
7+阅读 · 2017年7月18日
OCR 哪家强?反正我觉得这个工具是厉害的不得了。
高效率工具搜罗
4+阅读 · 2017年7月3日
相关论文
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
31+阅读 · 2018年11月13日
Arxiv
135+阅读 · 2018年10月8日
Arxiv
7+阅读 · 2018年3月21日
Arxiv
3+阅读 · 2017年12月18日
Arxiv
3+阅读 · 2017年11月12日
Top
微信扫码咨询专知VIP会员