Optical character recognition (OCR) is a process of converting analogue documents into digital using document images. Currently, many commercial and non-commercial OCR systems exist for both handwritten and printed copies for different languages. Despite this, very few works are available in case of recognising Bengali words. Among them, most of the works focused on OCR of printed Bengali characters. This paper introduces an end-to-end OCR system for Bengali language. The proposed architecture implements an end to end strategy that recognises handwritten Bengali words from handwritten word images. We experiment with popular convolutional neural network (CNN) architectures, including DenseNet, Xception, NASNet, and MobileNet to build the OCR architecture. Further, we experiment with two different recurrent neural networks (RNN) methods, LSTM and GRU. We evaluate the proposed architecture using BanglaWritting dataset, which is a peer-reviewed Bengali handwritten image dataset. The proposed method achieves 0.091 character error rate and 0.273 word error rate performed using DenseNet121 model with GRU recurrent layer.


翻译:光学字符识别(OCR)是一个利用文件图像将模拟文档转换成数字的过程,目前,手写和印刷不同语言的手写和印刷版本都存在许多商业和非商业的OCR系统;尽管如此,在承认孟加拉语词的情况下,很少有作品可供使用;其中多数作品侧重于孟加拉印刷字符的OCR;本文为孟加拉语引入了端到端的OCR系统;拟议架构实施了一个结束战略,承认手写孟加拉语图像中的手写孟加拉语。我们试验了流行的神经网络(CNN)结构,包括DenseNet、Xception、NASNet和移动网络,以建立OCR结构。此外,我们试验了两种不同的经常性神经网络(RNN)方法,即LSTM和GRU。我们用BanglaWriting数据集评估了拟议的结构,这是一个经过同行审查的孟加拉手写图像数据集。拟议方法达到了0.091个字符错误率和0.273个字错误率,使用DenseNet121的GRUODRO。

0
下载
关闭预览

相关内容

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
最新《深度卷积神经网络理论》报告,35页ppt
专知会员服务
46+阅读 · 2020年11月30日
Transformer模型-深度学习自然语言处理,17页ppt
专知会员服务
104+阅读 · 2020年8月30日
专知会员服务
61+阅读 · 2020年3月19日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
学习自然语言处理路线图
专知会员服务
139+阅读 · 2019年9月24日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
基于Lattice LSTM的命名实体识别
微信AI
47+阅读 · 2018年10月19日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
【推荐】用TensorFlow实现LSTM社交对话股市情感分析
机器学习研究会
11+阅读 · 2018年1月14日
上百份文字的检测与识别资源,包含数据集、code和paper
数据挖掘入门与实战
17+阅读 · 2017年12月7日
OCR开源库(文本区域定位和文本识别):github
数据挖掘入门与实战
28+阅读 · 2017年11月26日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Stock Chart Pattern recognition with Deep Learning
Arxiv
6+阅读 · 2018年8月1日
Arxiv
3+阅读 · 2018年6月19日
Arxiv
19+阅读 · 2018年3月28日
VIP会员
相关VIP内容
最新《深度卷积神经网络理论》报告,35页ppt
专知会员服务
46+阅读 · 2020年11月30日
Transformer模型-深度学习自然语言处理,17页ppt
专知会员服务
104+阅读 · 2020年8月30日
专知会员服务
61+阅读 · 2020年3月19日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
学习自然语言处理路线图
专知会员服务
139+阅读 · 2019年9月24日
相关资讯
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
基于Lattice LSTM的命名实体识别
微信AI
47+阅读 · 2018年10月19日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
【推荐】用TensorFlow实现LSTM社交对话股市情感分析
机器学习研究会
11+阅读 · 2018年1月14日
上百份文字的检测与识别资源,包含数据集、code和paper
数据挖掘入门与实战
17+阅读 · 2017年12月7日
OCR开源库(文本区域定位和文本识别):github
数据挖掘入门与实战
28+阅读 · 2017年11月26日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Top
微信扫码咨询专知VIP会员