今日 Paper | 高效骨干搜索；学习扩充；最小人脸检测器；DEPARA等

2020 年 4 月 2 日 AI科技评论

这篇论文要解决的是场景文本识别(Scene Text Recognition, STR)的问题。过去的研究更加重视通过改进预处理图像模块来提高性能，比如校正和去模糊，或者序列转换器。然而，另一个关键模块，即特征序列提取器，还没有得到广泛的研究。这篇论文提出了一个自动化场景文本识别(AutoSTR)方法来搜索依赖于数据的主干模型，以提高文本识别性能。首先，新方法为STR设计了一个特定于域的搜索空间，其中包含了各种运算的选择和下采样路径的约束。然后，新方法使用了一个两步搜索算法，它解耦了操作和下采样路径，可以在给定的空间中进行有效的搜索。实验表明，通过搜索依赖于数据的主干，AutoSTR可以在更少错误和模型参数的情况下，在标准基准数据集上超越最先进的方法。

学习扩充：用于文本识别的联合数据增强和网络优化

论文名称：Learn to Augment: Joint Data Augmentation and Network Optimization for Text Recognition

作者：Luo Canjie /Zhu Yuanzhi /Jin Lianwen /Wang Yongpan

发表时间：2020/3/14

论文链接：https://arxiv.org/abs/2003.06606

推荐原因

这篇论文被CVPR 2020接收，要解决的是文本识别问题。

这篇论文提出了一种新的文本图像数据增强方法。与传统增强方法（例如旋转、缩放和透视变换）不同，新方法旨在掌握适当而高效的数据增强方法，对于训练健壮的识别器更有效而具体。新方法通过使用一组自定义基准点变得灵活而可控，并通过联合学习弥合了孤立数据增强过程与网络优化之间的鸿沟。代理网络从识别网络的输出中学习并控制基准点，从而为识别网络生成更合适的训练样本。在包括常规场景文本、不规则场景文本、手写文本在内的各种基准上进行的大量实验表明，这篇论文提出的增强方法和联合学习策略显著提高了识别网络的性能。

KPNet：最小人脸检测器

论文名称：KPNet: Towards Minimal Face Detector

作者：Song Guanglu /Liu Yu /Zang Yuhang /Wang Xiaogang /Leng Biao /Yuan Qingsheng

发表时间：2020/3/17

论文链接：https://arxiv.org/abs/2003.07543v1

推荐原因

这篇论文发表于AAAI 2020，考虑的是人脸检测的问题。

这篇论文发现脸部外观特征具有足够的判别力，用微型浅层神经网络也可以从背景中进行检测。与大多数自上而下联合面部检测和对齐方法不同，所提KPNet以自下而上的方式检测较小的面部关键点，而非整个面部。KPNet首先通过精心设计的细粒度比例逼近和比例自适应Soft-argmax运算符从低分辨率图像预测面部界标。无需任何复杂的头部架构或精心的网络设计，KPNet只需约1M参数即可实现通用人脸检测和对齐基准的当前最佳准确率，在GPU上的运行速度为1000fps，且易于在大多数前端芯片上实时执行。

DEPARA:深度知识可迁移性的深度属性图

论文名称：DEPARA: Deep Attribution Graph for Deep Knowledge Transferability

作者：Song Jie /Chen Yixin /Ye Jingwen /Wang Xinchao /Shen Chengchao /Mao Feng /Song Mingli

发表时间：2020/3/17

论文链接：https://arxiv.org/abs/2003.07496

推荐原因

这篇论文被CVPR 2020接收，提出了名为DEPARA的深度属性图模型，以研究从预训练的深度神经网络（PRe-trained Deep Neural Networks，PR-DNN）中获得的知识的可迁移性。在DEPARA中，节点对应于输入，并由它们在PR-DNN的输出的向量化属性图表示。边表示输入之间的相关性，并通过从PR-DNN中提取的特征相似度来衡量。两个PR-DNN的知识可迁移性是通过它们对应的DEPARA的相似性来衡量的。这篇论文将DEPARA应用于迁移学习中的预训练模型选择和层选择问题，并通过大量实验证明所提方法在解决这两个问题上的有效性和优越性。

用于任意形状文本检测的深度关系推理图网络

论文名称：Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection

作者：Zhang Shi-Xue /Zhu Xiaobin /Hou Jie-Bo /Liu Chang /Yang Chun /Wang Hongfa /Yin Xu-Cheng

发表时间：2020/3/17

论文链接：https://arxiv.org/abs/2003.07493

推荐原因

这篇论文已经被CVPR 2020接收，要解决的是任意形状的文本检测。

这篇论文提出了一种用于任意形状文本检测的新统一关系推理图网络。在该方法中，局部图通过卷积神经网络桥接了文本提议模型，并通过图卷积网络跨越深度关系推理网络，从而使所提网络端到端可训练。具体而言，每个文本实例将被分成一系列小的矩形组件，并且这些小组件的几何属性（如高度、宽度和方向）将由文本提案模型估算。给定几何属性，本地图构造模型可以大致建立不同文本组件之间的链接。为进一步推理并推论组件与其邻居之间链接的可能性，这篇论文采用基于图的网络对局部图执行深度关系推理。公开数据集上的实验证明了所提方法具有当前最佳性能。