AAAI 2020 | 从边界到文本—一种任意形状文本的检测方法

2020 年 1 月 31 日 AI科技评论
作者 | 王豪、卢普
编辑 | Camel

本文来自: CSIG文档图像分析与识别专委会
本文对华中科大、阿里巴巴合作完成的、发表在AAAI 2020的论文《All You Need Is Boundary: Toward Arbitrary-Shaped Text Spotting》进行解读。
论文链接:https://arxiv.org/pdf/1911.09550.pdf
该论文提出了用边界点来表示任意形状文本的方法,解决了自然场景图像中任意形状文本的端到端识别问题。如图1所示:
图 1:文本区域表示的两种方法
现有方法用外接四边形框来表示文本边界(图1,(a)),通过RoI-Align来提取四边形内的特征(图1,(b)),这样会提取出大量的背景噪声,影响识别网络。利用边界点来表示任意形状文本有以下优势:
  • 边界点能够描述精准的文本形状,消除背景噪声所带来的影响(图1,(c));
  • 通过边界点,可以将任意形状的文本矫正为水平文本,有利于识别网络(图1,(d));
  • 由于边界点的表示方法,识别分支通过反向传播来进一步优化边界点的检测。
一、研究背景
文本检测和识别常作为两个独立的子任务进行研究,但事实上,两者是相互关联并且能相互促进的。
近期的一些工作开始关注到文本端到端识别问题,并取的了显著的进展。面对不规则的文本,这些方法多采用分割的方式对文字区域进行描述。分割的方法常需要复杂的后处理,并且获取的文本框和识别分支之间并不可导,识别分支的文本语义信息无法通过反向传播来对文本框进行优化。
同时一些方法使用字符分割的方法进行识别,这使得识别器失去序列建模能力,并且需要额外的字符标注,增加了识别的训练难度以及标注成本。
二、原理简述
虽然边界点的预测理论上可以直接从水平候选框中预测(如图3(d)所示),但是自然场景中的文本呈现各种不同的形状、角度以及仿射变换等,这使得直接从水平候选框中预测边界点变得十分困难,不具有稳定性。
因此,我们在文本实例的最小外接四边形上预测边界点,这样可以将不同角度、形状的文本旋转为水平形状,在对齐后的文本实例上预测边界点对于网络更为高效,容易。
具体方法细节如图2所示,
图2. 总体框架
本文的方法的包含三个部分:多方向矩形包围框检测器(the Oriented Rectangular Box Detector),边界点检测器(the Boundary Point Detection Network),以及识别网络(the Recognition Network)。对于多方向矩形包围框检测器,该文首先使用RPN网络进行候选区提取。
为了产生多方向的矩形框,在提取出的候选区对目标矩形框的中心偏移量、宽度、高度和倾斜角度进行回归。获取了矩形包围框后,利用矩形框进行特征提取,并在提取的的候选区中进行文字边界点的回归。得到预测的边界点后,对文本区域的特征进行矫正,并将矫正的特征输入到后续的识别器中。
图3:回归过程图示
对于边界点检测网络,如图3(c)所示,该方法根据默认锚点(设定的参考点)进行回归,这些锚点被均匀的放置在最小矩形包围框的两个长边上,同时从文本实例的每个长边上等距采样K个点作为文字的目标边界点。本文采用预测相对偏移量的方式来获取边界点的坐标,即预测一个的向量(个边界点)。对于边界点 可从预测的偏移量获取, ,其中 代表定义的描点。
对于识别网络,识别器使用矫正的特征预测出字符序列。首先,编码器将矫正的特征编码为特征序列 。 然后基于注意力的解码器将F转化为字符序列 , 其中T是序列长度。当为第t时,解码器通过隐藏层状态 和上一步的结果 预测当前步的结果。
本文的方法采用完全端到端的训练方式,网络的损失函数包含四个部分, , 其中 为RPN的损失, 为多方向矩形框回归的损失值, 为边界点回归的损失值, 为识别网络的损失。
三、主要实验结果及可视化效果
从表 1来看,
表 1:在全部文本上的结果。“ P”,“ R”和“ F”分别表示精度,召回率和F量度检测任务。“ E2E”表示端到端,“ None”表示没有任何词典的识别,“ Full”词典包含测试集中的所有单词。
文中的方法在曲形数据集上取得了优异的性能,大幅领先先前方法。总结来看,性能的提升主要来源于三点:
1) 相对于基于分割的方法MaskTextSpotter, 本文的识别器采用基于注意力的解码器,能够捕获字符之间的语义关系,而MaskTextSpotter独立地预测每个字符; 
2) 相对于其他方法,本文使用边界点对文本区域的特征进行矫正,识别器拥有更好的特征;
3) 得益于更好的识别结果,由于检测和识别共享特征,检测的结果受特征影响得到进一步提升。
对于Table 2,
表2、ICDAR2015 和 ICDAR2013(DetEval)的结果。“ S”,“ W”和“ G”分别表示使用强,弱和通用词典进行识别。*表示使用MLT2017的训练数据集进行训练。
文中的方法在ICDAR15多方向数据集上取得较好的结果,得益于序列识别器,在只使用通用字典的情况下高于先前的结果。在ICDAR13水平数据集上,本文的方法未使用字符标注,也取得较好的结果。
图4:在Total-Text、ICDAR2015和ICDAR2013上的文本发现结果示例。
图4 展示了一些可视化的结果图。该方法能处理任意形状的文本,并且能很好地处理垂直文本,能够正确获取竖直文本的阅读顺序。 
四、总结及讨论
本文提出了一个以边界点表示任意形状文本的端到端网络,实验证明了此种方法在端到端识别任务上的有效性和优越性。检测任务和识别任务均能从边界点这种表示形式中受益:
1)由于边界点的表示是可导的,因此识别分支的导数回传会进一步优化检测结果;
2)使用边界点对不规则文本的特征进行矫正能移除背景干扰,可以提升识别性能。 

更多AAAI 2020信息,将在「AAAI 2020 交流群」中进行,加群方式:添加AI研习社顶会小助手(AIyanxishe2),备注「AAAI」,邀请入群。



AAAI 2020 论文集:
AAAI 2020 论文解读会 @ 望京(附PPT下载)
AAAI 2020上的NLP有哪些研究风向?


AAAI 2020 论文解读系列:

01. [中科院自动化所] 通过识别和翻译交互打造更优的语音翻译模型
02. [中科院自动化所] 全新视角,探究「目标检测」与「实例分割」的互惠关系
03. [北理工] 新角度看双线性池化,冗余、突发性问题本质源于哪里?
04. [复旦大学] 利用场景图针对图像序列进行故事生成
05. [腾讯 AI Lab] 2100场王者荣耀,1v1胜率99.8%,腾讯绝悟 AI 技术解读
06. [复旦大学] 多任务学习,如何设计一个更好的参数共享机制?
07. [清华大学] 话到嘴边却忘了?这个模型能帮你 | 多通道反向词典模型
08. [北航等] DualVD: 一种视觉对话新框架
09. [清华大学] 借助BabelNet构建多语言义原知识库
10. [微软亚研] 沟壑易填:端到端语音翻译中预训练和微调的衔接方法
11. [微软亚研] 时间可以是二维的吗?基于二维时间图的视频内容片段检测
12. [清华大学] 用于少次关系学习的神经网络雪球机制

13. [中科院自动化所] 通过解纠缠模型探测语义和语法的大脑表征机制

14. [中科院自动化所] 多模态基准指导的生成式多模态自动文摘

15. [南京大学] 利用多头注意力机制生成多样性翻译

16. [UCSB 王威廉组] 零样本学习,来扩充知识图谱(视频解读)

17. [上海交大] 基于图像查询的视频检索,代码已开源!

18. [奥卢大学] 基于 NAS 的 GCN 网络设计(视频解读)
19. [中科大] 智能教育系统中的神经认知诊断,从数据中学习交互函数
20. [北京大学] 图卷积中的多阶段自监督学习算法
21. [清华大学] 全新模型,对话生成更流畅、更具个性化(视频解读,附PPT)
22. [华南理工] 面向文本识别的去耦注意力网络
23. [自动化所] 基于对抗视觉特征残差的零样本学习方法
24. [计算所] 引入评估模块,提升机器翻译流畅度和忠实度(已开源)
25. [北大&上交大] 姿态辅助下的多相机协作实现主动目标追踪
26. [快手] 重新审视图像美学评估 & 寻找精彩片段聚焦点
27. [计算所&微信AI] 改进训练目标,提升非自回归模型翻译质量(已开源)
28. [中科院&云从科技]: 双视图分类,利用多个弱标签提高分类性能
29. [中山大学] 基于树状结构策略的渐进强化学习
30. [东北大学] 基于联合表示的神经机器翻译(视频解读)
31. [计算所]引入评估模块,提升机器翻译流畅度和忠实度(视频解读)
32. [清华大学]用于少次关系学习的神经网络雪球机制(视频解读)
33. [计算所]非自回归机器翻译,基于n元组的训练目标(视频解读)
34. [清华大学] 司法考试数据集(视频解读,附下载链接)
35. [自动化所] 弱监督语义分割(视频解读)
36. [自动化所] 稀疏二值神经网络,不需要任何技巧,取得SOTA精度(视频解读)

    

招 聘


AI 科技评论希望能够招聘 科技编辑/记者 一名

办公地点:北京

职务:以参与学术顶会报道、人物专访为主

工作内容:

1、参加各种人工智能学术会议,并做会议内容报道;

2、采访人工智能领域学者或研发人员;

3、关注学术领域热点事件,并及时跟踪报道。

要求:

1、热爱人工智能学术研究内容,擅长与学者或企业工程人员打交道;

2、有一定的理工科背景,对人工智能技术有所了解者更佳;

3、英语能力强(工作内容涉及大量英文资料);

4、学习能力强,对人工智能前沿技术有一定的了解,并能够逐渐形成自己的观点。


感兴趣者,可将简历发送到邮箱:jiawei@leiphone.com


点击“阅读原文” 前往 AAAI 2020 专题页


登录查看更多
0

相关内容

最新《自然场景中文本检测与识别》综述论文,26页pdf
专知会员服务
69+阅读 · 2020年6月10日
专知会员服务
160+阅读 · 2020年4月21日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
自然场景下的文字检测:从多方向迈向任意形状
人工智能前沿讲习班
8+阅读 · 2019年6月7日
【CVPR2018】物体检测中的结构推理网络
深度学习大讲堂
6+阅读 · 2018年7月30日
白翔:复杂开放场景中的文本理解
深度学习大讲堂
12+阅读 · 2018年6月5日
腾讯数平精准推荐 | OCR技术之检测篇
机器学习研究会
13+阅读 · 2018年3月17日
论文 | YOLO(You Only Look Once)目标检测
七月在线实验室
14+阅读 · 2017年12月12日
Bivariate Beta LSTM
Arxiv
5+阅读 · 2019年10月7日
Arxiv
21+阅读 · 2019年8月21日
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
Arxiv
7+阅读 · 2018年3月19日
VIP会员
相关资讯
自然场景下的文字检测:从多方向迈向任意形状
人工智能前沿讲习班
8+阅读 · 2019年6月7日
【CVPR2018】物体检测中的结构推理网络
深度学习大讲堂
6+阅读 · 2018年7月30日
白翔:复杂开放场景中的文本理解
深度学习大讲堂
12+阅读 · 2018年6月5日
腾讯数平精准推荐 | OCR技术之检测篇
机器学习研究会
13+阅读 · 2018年3月17日
论文 | YOLO(You Only Look Once)目标检测
七月在线实验室
14+阅读 · 2017年12月12日
相关论文
Bivariate Beta LSTM
Arxiv
5+阅读 · 2019年10月7日
Arxiv
21+阅读 · 2019年8月21日
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
Arxiv
7+阅读 · 2018年3月19日
Top
微信扫码咨询专知VIP会员