Segmenting handwritten document images into regions with homogeneous patterns is an important pre-processing step for many document images analysis tasks. Hand-labeling data to train a deep learning model for layout analysis requires significant human effort. In this paper, we present an unsupervised deep learning method for page segmentation, which revokes the need for annotated images. A siamese neural network is trained to differentiate between patches using their measurable properties such as number of foreground pixels, and average component height and width. The network is trained that spatially nearby patches are similar. The network's learned features are used for page segmentation, where patches are classified as main and side text based on the extracted features. We tested the method on a dataset of handwritten document images with quite complex layouts. Our experiments show that the proposed unsupervised method is as effective as typical supervised methods.


翻译:将手写文档图像分割成具有同质模式的区域是许多文件图像分析任务的一个重要预处理步骤。 用于培训深学习模型的手贴数据需要大量的人力工作。 在本文中,我们展示了未经监督的深入学习的页面分割方法,这免除了对附加说明图像的需要。 一个像形神经网络经过培训,以便使用可测量特性(如前台像素数量)和平均部件高度和宽度来区分补丁。 网络经过培训, 空间附近的补丁相似。 网络的学习功能用于页面分割, 将补丁分类为基于提取特征的主文本和侧文本。 我们在手写文档图像数据集上用非常复杂的布局测试了方法。 我们的实验显示, 拟议的非监督方法与典型的监管方法一样有效。

0
下载
关闭预览

相关内容

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Deep Co-Training for Semi-Supervised Image Segmentation
Arxiv
6+阅读 · 2018年6月21日
VIP会员
Top
微信扫码咨询专知VIP会员