Scene text detection has witnessed rapid development in recent years. However, there still exists two main challenges: 1) many methods suffer from false positives in their text representations; 2) the large scale variance of scene texts makes it hard for network to learn samples. In this paper, we propose the ContourNet, which effectively handles these two problems taking a further step toward accurate arbitrary-shaped text detection. At first, a scale-insensitive Adaptive Region Proposal Network (Adaptive-RPN) is proposed to generate text proposals by only focusing on the Intersection over Union (IoU) values between predicted and ground-truth bounding boxes. Then a novel Local Orthogonal Texture-aware Module (LOTM) models the local texture information of proposal features in two orthogonal directions and represents text region with a set of contour points. Considering that the strong unidirectional or weakly orthogonal activation is usually caused by the monotonous texture characteristic of false-positive patterns (e.g. streaks.), our method effectively suppresses these false positives by only outputting predictions with high response value in both orthogonal directions. This gives more accurate description of text regions. Extensive experiments on three challenging datasets (Total-Text, CTW1500 and ICDAR2015) verify that our method achieves the state-of-the-art performance. Code is available at https://github.com/wangyuxin87/ContourNet.


翻译:近年来,对文本的检测迅速发展。然而,仍然存在两大挑战:(1) 许多方法在文本显示中存在虚假的正数;(2) 场景文本的大规模差异使得网络很难学习样本。 在本文中,我们提议ContourNet, 有效地处理这两个问题, 朝着准确任意形状的文本检测迈出了一步。 首先, 提议建立一个对比例不敏感的适应区域建议网络(Adaptive-RPN), 生成文本建议, 仅侧重于Intercrection by Interexion (IoU) 的数值, 预测的和地面真理的框。 然后, 一个全新的本地 Orthogonal Texture-aware 模块(LOTM) 模型, 以两个或不同方向的本地文本信息, 并用一系列的轮廓点代表文本区域。 考虑到强势的单向或弱度调控区域激活通常是由虚调的文本特征(e.g. stusts.), 我们的方法有效地抑制了这些虚假的正值, 仅通过高压的输出式的 AR- CD adalal adal adviewal deal adal deal deal deviews deview at the the sal deal deviewal deal deviewdal deal deviews lactions.

1
下载
关闭预览

相关内容

专知会员服务
60+阅读 · 2020年3月19日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Clustered Object Detection in Aerial Images
Arxiv
5+阅读 · 2019年8月27日
Arxiv
12+阅读 · 2019年1月24日
Zero-Shot Object Detection
Arxiv
9+阅读 · 2018年7月27日
Arxiv
5+阅读 · 2018年4月17日
VIP会员
相关VIP内容
专知会员服务
60+阅读 · 2020年3月19日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关论文
Top
微信扫码咨询专知VIP会员