Handwritten document image binarization is a challenging task due to high diversity in the content, page style, and condition of the documents. While the traditional thresholding methods fail to generalize on such challenging scenarios, deep learning based methods can generalize well however, require a large training data. Current datasets for handwritten document image binarization are limited in size and fail to represent several challenging real-world scenarios. To solve this problem, we propose HDIB1M - a handwritten document image binarization dataset of 1M images. We also present a novel method used to generate this dataset. To show the effectiveness of our dataset we train a deep learning model UNetED on our dataset and evaluate its performance on other publicly available datasets. The dataset and the code will be made available to the community.


翻译:由于文件的内容、页面样式和条件差异很大,手写文档图像的二进制是一项艰巨的任务。 虽然传统的门槛化方法无法概括这种具有挑战性的情景,但深层次的学习方法可以很好地概括,但需要大量的培训数据。手写文档图像的二进制目前数据集的大小有限,无法代表若干具有挑战性的现实世界情景。为了解决这个问题,我们提议 HRDB1M - 手写文档图像的一进制数据集。 我们还提出了一个用于生成这一数据集的新颖方法。为了展示我们的数据集的有效性,我们在我们的数据集上培训了一个深层学习模型UNetED, 并在其他可公开获取的数据集上评价其性能。 数据集和代码将提供给社区使用。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
最新《Transformers模型》教程,64页ppt
专知会员服务
290+阅读 · 2020年11月26日
一份简单《图神经网络》教程,28页ppt
专知会员服务
120+阅读 · 2020年8月2日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
Keras作者François Chollet推荐的开源图像搜索引擎项目Sis
专知会员服务
29+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
145+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
Arxiv
9+阅读 · 2021年2月8日
Arxiv
11+阅读 · 2020年8月3日
Arxiv
3+阅读 · 2017年11月12日
VIP会员
相关资讯
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
Top
微信扫码咨询专知VIP会员